11

Sztuczna inteligencja walcząca z mową nienawiści daje się… trollować

Sztuczna inteligencja zatacza w technologiach coraz szersze kręgi: m. in. Google uważa, że może nam pomóc rozprawić się z mową nienawiści w internecie. Wygląda na to, że nawet mechanizm, który stworzono głównie po to, by rozprawiał się z tego typu incydentami można... ztrollować. I to w całkiem prosty sposób. Najnowsze badanie wskazuje na pewne niedomagania AI.

Oczywiście, mowa nienawiści to spory problem w internecie i warto z tym walczyć. Pytanie tylko, na ile możliwa jest walka z tego typu zjawiskami? Badacze z Aalto University w Finlandii udowodnili natomiast, że mechanizmy stworzone po to, by walczyć z mową nienawiści można w prosty sposób… oszukać. Wystarczy zastosować niestandardowe techniki „wplatania” nienawistnych treści w wypowiedzi, bazując na przykład na błędach gramatycznych lub ignorując zasady interpunkcji. Co gorsza – właściwie wszystkie testowane dostępne AI dedykowane takim działaniom oblały test skonstruowany przez badaczy.

Badacze postanowili sprawdzić, jak dostępne mechanizmy oparte na sztucznej inteligencji radzą sobie z błędami ortograficznymi, literówkami lub brakiem odstępów między wyrazami. Okazało się, że żaden z obiektów poddanych testom nie znalazł w tak spreparowanych tekstach niczego zdrożnego. Między innymi Google Perspective okazało się być podatne na tego typu techniki: sztuczna inteligencja zwyczajnie nie jest w stanie rozpoznawać konkretnych wyrazów w ciągach znaków. Natomiast te mogą zostać bardzo szybko rozpoznane przez człowieka. W skrócie: ciąg „jesteśgłupijakbutodlewejnogi” nie został zidentyfikowany jako taki, który zawiera elementy mowy nienawiści, a przecież od razu widać, że zawiera on w sobie określenie o jednoznacznie pejoratywnym charakterze.

sztuczna inteligencja perspective

Należy dbać o jakość danych wykorzystywanych do trenowania sztucznej inteligencji. Badacze również wskazują na to, że „mowa nienawiści” jest określeniem czysto subiektywnym

To, co przez jedną osobę może zostać uznane za „mowę nienawiści”, może nie nosić takich znamion w odczuciu drugiej. Wiele zależy tutaj od kontekstu danej wypowiedzi oraz użytych wyrazów. Sztuczna inteligencja jedynie w bardzo ograniczonym stopniu jest w stanie odczytać kontekst, ale nigdy nie będzie operować na dokładnie tym samym poziomie percepcji co człowiek – do tego raczej wymagana jest samoświadomość oraz autorefleksyjność. Sztuczna inteligencja nie jest w stanie wygenerować sobie „własnego zdania”, bazuje jedynie na podanych jej wzorcach postępowania, z których korzysta następnie do rozwiązywania problemów.

Badacze z Aalto University wskazują więc na to, że wymagane jest to, aby dbać o jakość danych używanych do trenowania sztucznej inteligencji. Warto zwrócić uwagę na możliwe techniki pozwalające na oszukanie jej – w taki sposób, w jaki zrobili to naukowcy. Detekcja oparta na analizie nie tyle całych wyrazów, co związków między pojedynczymi znakami jest tutaj kluczowa.

Nie oznacza to natomiast, że sztuczna inteligencja jest bezużyteczna w wykrywaniu nienawistnych komentarzy: wręcz przeciwnie. Co prawda poległa ona w konfrontacji ze specjalnie przygotowanymi modelami testowymi, aczkolwiek nieźle radzi sobie z typowymi wypowiedziami w sieci. Google Perspective cały czas uczy się nowych rzeczy, podobnie jak i bliźniacze mechanizmy. Wdrożenie danych bazujących na technikach skonstruowanych przez Aalto University najpewniej spowoduje, że już wkrótce AI przestanie być oporna na podobne praktyki.