0

Dalibyście się oszukać takim sztucznie wygenerowanym głosem?

Na pewno pamiętacie czym jest technologia deepfake. Pewnie zawsze już będzie kojarzona z podkładaniem twarzy znanych aktorów pod sceny z filmów pornograficznych. Ale możecie nie wiedzieć, że można w ten sposób również wygenerować komputerowo czyjś głos. I jest bardzo przekonujący - na tyle, by wykorzystywali go hakerzy.

Wspomniałem o filmach pornograficznych i twarzach znanych aktorów nie bez powodu. To właśnie wtedy technologia deepfake była najczęściej komentowana w sieci i nawet osoby, które się takimi tematami nie interesują, zobaczyły o co chodzi. Podobno zapotrzebowanie na tego typu przeróbki było ogromne, ale trudno się temu dziwić.

Na szczęście były ciekawsze i bardziej kreatywne sposoby wykorzystania sztucznej inteligencji do podmieniania twarzy. Szczerze polecam ten kanał na YouTube, niektóre materiały to mistrzostwo świata.

Niewiele uwagi poświęca się jednak tak zwanym deepfake’om audio, a one mogą się okazać dużo bardziej szkodliwe, choćby dlatego, że bywają wykorzystywane…przez hakerów. Doskonale wiecie, że socjotechinka to jeden z najbardziej niebezpiecznych ataków, które ostatecznie prowadzą do udostępnienia atakującemu danych potrzebnych następnie do właściwego włamu. Podobno właśnie dlatego hakerzy uzyskali dostęp do slacka pracowników Twittera, a tam przejęli dane potrzebne do zalogowania się do wewnętrznego systemu firmy – a to skutkowało możliwością manipulacji nawet największymi kontami w serwisie.

Hakerzy używają uczenia maszynowego by klonować głos i wykorzystują go właśnie w atakach bazujących na socjotechnice. To zasadniczo nie jest nic nowego, jednak przy dzisiejszej technologii, podczas choćby rozmowy telefonicznej myślę, że wiele osób dałoby się oszukać. Choć wsłuchując się bardziej, słychać trochę cyfrowy, robotyczny wydźwięk. Takie rzeczy można natomiast zrzucić na słabe połącznie i raczej zwykły człowiek tak by tego nie analizował. Ale najlepiej posłuchajcie sami:

Powyższe nagranie to fragment wiadomości głosowej wysłanej jednej z firm technologicznych – głos był klonem głosu prawdziwego CEO i prosił o natychmiastową pomoc przy sfinalizowaniu pilnej umowy biznesowej. Atak się nie udał, pracownik uznał że coś jest nie tak i doniósł o sprawie do odpowiedniego departamentu firmy.

Jak stworzyć taki sklonowany głos? Program musi analizować nagrania – im ich więcej, tym sklonowany głos będzie lepszy i bardziej przypominający oryginał. A to nie jest wcale takie trudne, szczególnie, że nie widzę specjalnego problemu w dostępie do takich nagrań w przypadku bardziej znanych osób – jest tego w sieci pełno. I jest więcej niż pewne, że gdyby atakujący dysponowali większą ilością próbek, sklonowany głos byłby jeszcze bardziej podobny do prawdziwego. Zmieńcie wtedy firmę technologiczną na nietechnologiczną i atak na osobę, która odbiera dziennie kilkadziesiąt telefonów w różnych sprawach, mogłaby łatwo paść ofiarą takiej manipulacji.

Bo takie ataki się udają. Jak donosi The Verge w 2019 roku jeden z szefów firmy energetycznej w UK został w ten sposób oszukany i przelał 220 tysięcy euro węgierskiemu dostawcy – bazując na telefonie swojego CEO z Niemiec. Transfer pieniędzy miał być wykonany natychmiast, był bardzo pilny – atakujący nigdy nie zostali złapani, a pieniądze przepadły.

Zastanawiam się, czy ja w podobnej sytuacji nie dałbym się nabrać. Zdarza się bowiem, że podczas rozmów telefonicznych głos gdzieś ucieka, ma czasami lekko metaliczny dźwięk – szczególnie kiedy któremuś z rozmówców brakuje kresek zasięgu lub jeśli jest to połączenie głosowe w komunikatorze, pojawiają się problemy z odpowiednio szybkim dostępem do internetu. I mówiąc szczerze – nie wiem, pewnie wszystko zależałoby od jakości samego sklonowanego głosu i tego, czy często rozmawiam z tą osobą. Poza samą barwą liczy się też intonacja, sposób mówienia, akcent no i wspomniana znajomość rozmówcy. Ale w przypadku nieznanych osób lub takich, z którymi rozmawiałem raz czy dwa razy w życiu? Nie wiem, możliwe że tak.

grafika

źródło