rowery
6

Google potrafi rozpoznawać zawartość filmów. Nie przeraża was to?

Podczas wydarzenia odbywającego się w San Francisco, jakim jest Google Cloud Next ’17, CEO Sundar Pichai rozpoczął rozpoczął swoje przemówienie od podkreślenia tego, iż uważa chmury za przyszłość branży technologicznej. Znacząco wpłyną na przemiany związane funkcjonowaniem firm, m.in. poprzez wykorzystanie nauczania maszynowego. My natomiast skupimy się na jednym z zaprezentowanych rozwiązań, bazującym właśnie na nauczaniu maszynowym.

Cloud Video Intelligence

Google Cloud Platform to usługi świadczone przez Google w postaci chmury obliczeniowej (cloud computing. W ich skład wchodzą na przykład: Google Cloud Storage do przechowywania dużych ilości danych,  Google App Engine będące bezpieczną platformą do tworzenia aplikacji, czy Google Big Query do zastosowań z zakresu BigData. W trakcie trwającego od 8 do 10 marca Google Cloud Next ’17, zapowiedziano nową funkcję GCP o nazwie „Cloud Video Intelligence”, aktualnie będącej w fazie prywatnych beta testów.

To API pozwala na automatyczne rozpoznawanie obiektów znajdujących się w filmach. Jest to o tyle imponujące, że dotychczas komputery były wyposażane w umiejętność rozróżniania treści znajdujących się na nieruchomych grafikach. Możliwość zrozumienia tego co dzieje się na ruchomym obrazie, to już wyższa szkoła jazdy.

Cloud Video intelligence umożliwi programistom tworzenie aplikacji wykorzystujących umiejętność rozpoznawania treści zawartych w filmie. Dzięki temu można sprawić, że wyszukiwanie określonego nagrania wideo będzie możliwe za pośrednictwem odpowiednich słów. Były tam rowery i roślinność? Po wrzuceniu do chmury Google, algorytm przypisze do filmu metadane takie jak: „sport”, „pojazd”, czy „drzewo”.

Z czasem będzie tylko lepiej

Możliwość korzystania z tego komputerowego rozpoznawania obrazu nie wiąże się z koniecznością znajomości takiej technologii, czy chociażby wiedzy na temat nauczania maszynowego. Wszystko zostało zrobione po stronie Google i teraz zostaje udostępnione jako API, będące pomostem między twoją aplikacją i platformą nauczania maszynowego stworzoną przez Google. Wraz z upływem czasu ta usługa staje się coraz lepsza i dokładniejsza w tym co robi, ponieważ uczy się ze wszystkich dostarczanych jej filmów.

Jeżeli chcesz po prostu przechowywać swoje pliki wideo w chmurze, będziesz mógł korzystać z Cloud Video Intelligence jak z bardzo dokładnej wyszukiwarki treści, która powinna poradzić sobie nie tylko z ogólnym zrozumieniem czego dotyczy cały film, lecz wyszczególnić również konkretne podmioty i przypisać je do określonych przedziałów czasowych w nagraniu wideo. Będziesz mógł czegoś wyszukać niemal tak samo jakby to był dokument tekstowy, wpiszesz „bieganie” i trafisz na moment filmu, w którym ktoś akurat biegnie.

Główny naukowiec Google Cloud z zakresu AI oraz nauczania maszynowego, pani Fei-Fei Li zaznacza, że świat pikseli wykracza poza nieruchome obrazy, a filmy od dawna stanowiły wyzwanie dla ludzi rozwijających nauczanie maszynowe w tym zakresie. Jak widać udało się postawić kolejny istotny krok w rozpoznawaniu treści wideo, a efekty zostaną udostępnione w postaci rozszerzenia usług związanych z Google Cloud Platform.

Przynajmniej wiadomo, która firma jako pierwsza stworzy pełnoprawny model terminatora, zupełnie jak z filmu.

Źródło 1, 2