Google

Kolejny etap inwigilacji? Google rozpozna zawartość i automatycznie podpisze Twoje zdjęcia

TP
Tomasz Popielarczyk
29

Przedziwne technologie rodzą się w laboratoriach Google Research. Wiele z nich nie tylko robi ogromne wrażenie, ale też trochę przeraża. Tak chyba można opisać zaprezentowany mechanizm automatycznego generowania podpisów do zdjęć, który zaprezentowano na oficjalnym blogu firmy. To kolejny etap rozwo...

Przedziwne technologie rodzą się w laboratoriach Google Research. Wiele z nich nie tylko robi ogromne wrażenie, ale też trochę przeraża. Tak chyba można opisać zaprezentowany mechanizm automatycznego generowania podpisów do zdjęć, który zaprezentowano na oficjalnym blogu firmy. To kolejny etap rozwoju technologii, która ma pozwolić usługom Google na dogłębną analizę zawartości naszych fotografii.

O rozpoznawaniu zawartości zdjęć przez Google pisałem już jakiś czas temu na łamach Antyweba. Inżynierowie firmy robią na tym polu ogromne postępy, bo właśnie przedstawili mechanizm, który nie tylko poddaje analizie fotografię, ale również potrafi ją opisać przy użyciu naturalnego języka.

Kilka miesięcy temu pisałem o rozwiązaniu, dzięki któremu Google potrafi przygotować listę tagów (słów kluczowych) związanych z danym zdjęciem. Teraz są one wykorzystywane jako składowe automatycznie generowanego opisu. Oczywiście dotyczy to aktualnie wyłącznie języka angielskiego, czego przykłady mamy poniżej (nic jednak nie stoi na przeszkodzie, aby w przyszłości były one dodatkowo poddawane tłumaczeniu przez zautomatyzowany translator). Projekt znajduje się dopiero we wczesnej fazie rozwoju, więc do ideału im daleko, ale mimo wszystko robi to na mnie duże wrażenie.

Jak to wykorzystać? Google ma już kilka pomysłów. Przede wszystkim to doskonały punkt wyjścia do ułatwienia korzystania z komputera osobom niewidomym. Taki tekst może zostać przepuszczony przez syntezator mowy, a następnie odtworzony w słuchawkach. To także dobre rozwiązanie, które może zastąpić wyświetlanie graficznych elementów na stronach www w krajach, gdzie łącza internetowe są dramatycznie wolne i nie radzą sobie z tego typu treściami. Dla Google'a korzyści są oczywiste - skuteczniejsze wyszukiwanie, ale też dodatkowe informacje o użytkownikach. Przykład? Osoba, która często dzieli się zdjęciami swojego psa na G+ może być dobrym targetem reklamy karmy dla zwierząt.

Google jest zadowolone z testów technologii, do której użyto ogólnodostępnych baz Pascal, Flickr8k, Flickr30k i SBU. To jednak dopiero początek, bo skomplikowane fotografie często wymagają dogłębnej analizy nie tylko obiektów na pierwszym planie, ale również otaczającego ich tła oraz zachodzących korelacji. Więcej informacji na ten temat można znaleźć na stronie Uniwersytetu Cornell, który zaangażował się w rozwój nowego rozwiązania.

Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu