1

Poznajcie algorytm, który widzi, słyszy i rozumie analizowany materiał wideo

Jak skutecznie szukać treści w serwisach wideo? Tytuły, tagi i opisy. Tak przynajmniej działa YouTube. Jeśli więc ktoś źle opisze i otaguje swój materiał, nie uda Wam się go znaleźć po wpisanym w wyszukiwarce haśle. Stworzono jednak algorytm, który jest w stanie przeanalizować materiał i wyciągnąć kluczowe słowa prosto z niego. System autorstwa firmy Dextro […]

Jak skutecznie szukać treści w serwisach wideo? Tytuły, tagi i opisy. Tak przynajmniej działa YouTube. Jeśli więc ktoś źle opisze i otaguje swój materiał, nie uda Wam się go znaleźć po wpisanym w wyszukiwarce haśle. Stworzono jednak algorytm, który jest w stanie przeanalizować materiał i wyciągnąć kluczowe słowa prosto z niego.

System autorstwa firmy Dextro analizuje zarówno obraz, ja i dźwięk. W ten sposób jest w stanie wyciągnąć z niego konkretne wypowiedzi, na podstawie których można później rzeczony materiał odnaleźć. Tytuły, opisy, tagi i jakiekolwiek inne metatagi nie są brane pod uwagę. System nazwano „Site, Sound and Motion” – niestety trudno powiedzieć by był nieomylny. Widać jednak potencjał, który możecie sami sprawdzić odwiedzając oficjalną stronę firmy.

Site, Sound and Motion

Jeśli wierzyć twórcom, system nie wyciąga z materiałów wideo jedynie dźwięku i obrazu. Jego założeniem jest analizowanie filmu jako całości i wyłapywanie hasłem również z kontekstu, biorąc pod uwagę na przykład ruch postaci na ekranie. Nikt niestety nie wyjaśnia jak dokładnie to działa, wspomina się jednak o tak zwanym deep learning, co nasuwa skojarzenia z szeregiem algorytmów odpowiedzialnych za tworzenie sztucznej inteligencji. Innymi słowy system wykorzystuje zgromadzone dane, by nauczyć się w jaki sposób radzić sobie z filmowym materiałem, który dostaje do analizy. Narzędzie stworzone przez Dextro ma być udostępnione firmom zajmującym się tworzeniem aplikacji wyszukujących treści w sieci, jest więc spora szansa na to, że za jakiś czas skorzystamy z tego również my, zwykli widzowie.

Odkładając na bok dywagacje na temat sztucznej inteligencji i tego, na ile taki system jest w stanie przyczynić się do rozwoju prac nad SI, to po prostu fajny pomysł. Kiedy szukamy w sieci tekstu, korzystamy ze słów kluczowych, które pomagają nam odnaleźć pożądaną treść. Znajdzie ją w tytule lub samym tekście, dzięki czemu ostatecznie znajdujemy to, czego szukamy. Wrzucony na YouTube (czy jakikolwiek inny serwis oferujący dostęp do wideo) materiał bez tagów, opisu i odpowiedniego tytułu jest nie do znalezienia. Powiedzmy, że szukamy instrukcji jak przenieść pliki z telefonu na komputer. Nieistotne jak dobry byłby to materiał, nie dotrzemy do niego – chyba, że wpadniemy na niego przypadkiem lub ktoś nam go wyśle. Algorytm wyciągający treść z wideo sprawdziłby się tu świetnie.

Site, Sound and Motion

Pozostaje jednak pytanie, jak wykorzystają go twórcy. Przy nagrywaniu wideo trzeba będzie bowiem pamiętać o tym, by zawrzeć filmie odpowiednie słowa kluczowe. Ale jeśli to ułatwi mi jego znalezienie, nie mam nic przeciwko krótkiemu podsumowaniu, co znajdzie lub znalazło się w materiale. Nawet jeśli przez kilka sekund ktoś będzie po prostu czytał to, co normalnie napisałby w tagach. Jak więc widzicie, w wideo nie chodzi tylko o więcej klatek, lepszą rozdzielczość czy nowe sposoby oglądania. Istotne jest też wyszukiwanie filmów w sieci – co z tego, że będzie ich coraz więcej, będą coraz lepsze, skoro nie będziemy w stanie w prosty i szybki sposób do nich dotrzeć?

źródło

grafiki

V3_big_1