Technologie

Co korporacje widzą w Twoich zdjęciach? Więcej niż myślisz

Jakub Szczęsny
Co korporacje widzą w Twoich zdjęciach? Więcej niż myślisz
3

Operowanie w ramach konkretnej bańki informacyjnej może być czasami przyczyną (nie)miłych zaskoczeń. Otóż poza osobami interesującymi się technologiami nie jest "wiedzą powszechną", że przekazując zdjęcia gigantom technologicznym, często pozwalamy im na wykorzystanie na nich automatycznych technik rozpoznawania również twarzy. Warto więc o tym powiedzieć, a także możliwie prosto objaśnić, czego takie rozpoznawanie może dotyczyć.

Pamiętam moment, w którym na blogu Google pojawiła się informacja na temat systemu rozpoznawania obiektów na zdjęciu. Wtedy przedstawiono między innymi grafikę z pizzami na kuchence. Jak na ironię losu, zapamiętałem ten moment głównie dzięki niej. Jednak to, co jest oczywiste dla mnie (bo przecież widzę - dwie pizze na kuchence) - dla komputera już takie oczywiste nie jest. Rok 2014 był pierwszym bardzo ważnym sygnałem, że Google ma już naprawdę potężny machine learningowy mechanizm rozpoznający to, co znajduje się na zdjęciach. Po 7 latach od tego momentu już nikogo nie dziwi to, że w aplikacji Google Photos możesz wyszukiwać zdjęcia wpisując w wyszukiwarkę to, czego ma ono dotyczyć. Chcesz zdjęcie psa? Wpisz: "pies". Chcesz zdjęcia ze ślubu? Wpisz więc: "ślub".

Google do przygotowania swojego mechanizmu machine learningowego, który jest w stanie rozpoznawać obiekty (a obecnie już również twarze) na zdjęciach posiłkowało się bazami: Pascal, Flickr8k, Flickr30k i jeszcze kilkoma innymi. Przez ostatnie lata celność w informacjach, jakie pozyskują algorytmy została wyniesiona na zupełnie nowy poziom, choć sądzę że i tak czasami zdarzają się wpadki. Maszyna dopasowuje do znanych sobie wzorców to, co podsuniemy przed nią i na tej podstawie dostosuje najlepszy możliwy wynik swojej pracy. Właśnie tak to działa w ogromnym skrócie. Jednak w czasie, gdy zachwycaliśmy się nowymi funkcjami między innymi aplikacji Google Photos, na Facebooku rozpoczęło się tworzenie automatycznych alt-tekstów (atrybut alt na grafiki) tworzonych przez maszyny. Jeden ze składników szerszego narzędzia rozpoznającego obiekty na grafikach - DeepFace sięga swoją historią roku... 2007. Wtedy też Face.com zostało kupione przez Facebooka (obecnie Meta), a jego twórcy (co ciekawe, pracownicy działu AI w Facebooku...) zasilili tworzący się dział w podwojach społecznościowego giganta. Obecnie, po zmianach wprowadzonych przez Meta w zakresie rozpoznawania twarzy, automatyczne teksty alternatywne obrazów już nie będą zawierać informacji na temat twarzy. Czyli - część odpowiedzialna za obiekty dalej będzie działać jak działa, natomiast wychwytywanie twarzy oraz przyporządkowywanie do nich kont już działać nie będzie. Wszystko to ma związek z ostatnimi kontrowersjami wokół Facebooka / Meta.

Rozpoznawaniem twarzy w Google zajmuje się FaceNet, usługa podpięta do Zdjęć Google. Tutaj warto sobie powiedzieć pokrótce, jak radzą sobie te rozwiązania na polu rozpoznawania twarzy: mechanizm używany przez FBI ma skuteczność na poziomie 87 procent. DeepFace Facebooka w badaniach wykazywało się skutecznością na poziomie 97 procent, a FaceNet od Google - 99,63%. Co ciekawe, wtedy okazywało się że skuteczność rozpoznawania twarzy spadała w sytuacji, gdy mechanizm miał rozpoznać kobietę lub osobę czarnoskórą. Dlaczego? Bo informacje "wejściowe", w trakcie trenowania algorytmu zawierały przede wszystkim zdjęcia białych mężczyzn - wtedy też zaczęto sporo mówić o nieuświadomionych uprzedzeniach w kręgu machine learningu i sztucznej inteligencji.

Ale nie tylko te dwie firmy korzystają z rozpoznawania obiektów na zdjęciach - Microsoft w OneDrive też jest w stanie wyszukiwać grafiki na podstawie tego, co ma się na nich znajdować. Wystarczy wpisać w wyszukiwarce OneDrive'a "ślub" lub "samochód", by za chwilę otrzymać wszystkie swoje zdjęcia z jakiegokolwiek ślubu (lub podobnej uroczystości) lub dotyczące jakiegokolwiek psa.

To było dla mnie ciekawe, że nie wiemy o tym jak wiele wiedzą o nas giganci

A wiedzą mnóstwo. Wiadomo, że Facebook dysponuje narzędziami, które na podstawie tylko naszych zdjęć na naszym koncie - są w stanie ocenić naszą majętność. Banki, instytucje finansowe są żywo zainteresowane wykorzystaniem kont w mediach społecznościowych do oceny zdolności kredytowej oraz ryzyka udzielenia kredytu. Jeżeli chcecie sprawdzić, co na Waszych zdjęciach widzi Facebook, możecie to sprawdzić przechodząc do jej widoku oraz sprawdzając źródło strony. Jestem pewien, że Facebook sporządził dla Was tekst alternatywny, który zawiera pewne "słowa kluczowe" oraz nierzadko sens, kontekst grafiki.

Jeżeli korzystacie z OneDrive lub Google Photos, również możecie sprawdzić u siebie jak to wygląda. Google w mojej skromnej ocenie ma lepszą wyszukiwarkę wytrenowaną do tego celu (a raczej lepszy algorytm) - u mnie na wpisane tylko "samochód" pojawia się nawet kawałek deski rozdzielczej - wychodzi więc na to, że maszyna z tym stojąca "rozumie", że samochód to nie jest tylko "takie coś z kółkami", ale generalnie bardzo spore pojęcie (jestem ciekaw, czy podwozie samochodowe by też rozpoznał jako "samochód".

Ludzie, którym tłumaczę że Facebook nie będzie już używał rozpoznawania twarzy są natomiast zdumieni, nie byli wcześniej tego świadomi. Nie pomogła im w tym funkcja automatycznego rozpoznawania znajomych na wrzucanych zdjęciach. W dalszym ciągu jednak będzie rozpoznawać obiekty na grafikach. Google nie przestanie robić tych samych rzeczy w Google Photos. Ciekawe jest jednak to, że oburzamy się na to nie znając kontekstów i jednocześnie nie widzimy w tym nic złego, dopóki to tylko działa na rzecz naszej wygody.

Chociaż sądzę, że sporo jeszcze jesteśmy w stanie "poświęcić".

Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu