4

Czytanie z ruchu warg przestaje być dla maszyn problemem. Zaczniemy rozmawiać zasłaniając usta?

Niektórzy się jej obawiają, ja wciąż na nią czekam. Mowa o sztucznej inteligencji: prawdziwej, zdolnej do pełnej interakcji z człowiekiem, rozumienia go, uczącej się, niemożliwej do odróżnienia od naszej. Chociaż sporo się o tym mówi, droga do celu wciąż jest daleka. Pojawiają się jednak pola, na których maszyna zaczyna nawet uciekać człowiekowi, przerasta jego możliwości - przykładem czytanie z ruchu warg, które jest ciekawe, a może też być pożyteczne. Ale podejrzewam, że i w tym przypadku sporo osób sceptycznie podejdzie do tych "zdobyczy".

Sztuczna inteligencja będzie dla nas wielkim krokiem naprzód albo katastrofą – ludzie zazwyczaj skrajnie podchodzą do tematu i trudno się temu dziwić. Z rozwiązaniem, które za chwilę przedstawię będzie pewnie podobnie: jedni się ucieszą, inni pokręcą nosem i zmarszczą brwi, bo dostrzegą w tym nowy sposób na inwigilację.

Nad projektem pracowały ekipy z Google DeepMind oraz Uniwersytetu Oksfordzkiego. Zastosowano deep learning, czyli część uczenia maszynowego do zbadania dużej ilości danych pochodzących z programów BBC. Celem było stworzenie systemu czytającego z ruchu ust, który wykonywałby swoje zadanie na odpowiednio wysokim poziomie. Wspomniane dane to w sumie pięć tysięcy godzin nagrań z różnych programów, zasób użytego słownictwa jest bardzo szeroki – w sumie przeanalizowano blisko 120 tysięcy zdań. I nie było to proste zadanie, ponieważ liczyła się np. bardzo dobra synchronizacja dźwięku i obrazu.

Sztuczna inteligencja była uczona z wykorzystaniem materiałów, które pojawiły się na wizji w latach 2010-2015. Potem przyszedł czas na testy, w których użyto tegorocznych audycji. Efekty? Bardzo zadowalające – maszyna obserwując wyłącznie ruch warg osób mówiących była w stanie rozszyfrowywać nie tylko słowa, ale całe frazy i złożone zdania. Skalę osiągnięcia najlepiej dostrzec przez porównanie wyniku maszyny z pracą człowieka, specjalisty w tej dziedzinie. Ten ostatni miał rozszyfrować część nagrań (dobranych losowo) ze wspomnianego zbioru. Wynik? 12,4 procent słów podanych bezbłędnie. Jak poradził sobie komputer? Osiągnął prawie cztery razy lepszy rezultat: 46,8%. Dotyczy to wszystkich słów pochodzących z materiałów użytych w testach. Warto przy tym dodać, że pokaźna część błędów była drobna – brakowało np. litery „s” na końcu słowa.

Z takim wynikiem przy takiej trudności zadania, projekt można uznać za naprawdę duży skok jakościowy, a prace w tym kierunku będą pewnie kontynuowane. Po pierwsze, może to wpłynąć na podnoszenie jakości nauczania maszynowego, po drugie, przyda się sam system czytania z ruchu warg. Na takie rozwiązanie czekają np. ludzie z wadą słuchu, którzy mogliby korzystać z aplikacji typu Skype – rozmówca po prostu by mówił, sztuczna inteligencja czytałaby słowa z ruchu jego warg i wyświetlała je na ekranie. To samo rozwiązanie można wykorzystać w sklepach czy urzędach i wystarczyłby sprzęt mobilny wyposazony w kamerę. To znacznie ułatwiłoby komunikację między ludźmi, ale też między ludźmi a maszynami.

W tym drugim przypadku dochodzimy do wątku sterowania głosem, które ma być przyszłością interakcji człowieka z komputerem. Przyznam, że mnie trudno to sobie wyobrazić, bo nie wierzę, że nagle wszyscy zaczniemy w autobusie mówić do swoich telefonów, ze zrobimy to samo w bibliotece, pracy czy podczas zakupów. Ale przy odczytywaniu słów z ruchu warg sprawa wydaje się bardziej atrakcyjna: można szeptać albo nawet nie wydawać dźwięków, a maszyna i tak powinna zrozumieć. Ba, nawet przy zwyczajnym, głosowym dyktowaniu, ten system powinien podnieść jakość usługi. Robi się ciekawie.

Niektórzy stwierdzą oczywiście, że to pogłębianie inwigilacji, że patrzymy na kolejny sposób podsłuchiwania nas w każdej możliwej chwili życia. W przyszłości będziemy szeptać za dłonią. Jak dzisiaj robi się to w Sejmie, na stadionie czy przy naradach biznesowych. Możliwe? Wszystko jest możliwe. Ale póki co nie ma się czego bać – wspomniane osiągniecie jest warte odnotowania, lecz to ciągle nieśmiałe testy. Sztuczna inteligencja z prawdziwego zdarzenia nadal pozostaje w sferze marzeń i prognoz.