Emocje i ich niuanse

Kluczem do sukcesu Sonantic ma być, według słów jej dyrektora technicznego Johna Flynna, zrozumienie i nauczenie modelowania przez algorytm dźwięków niemowych, czyli wszelkich emocjonalnych dodatków w stylu drobnych niuansów oddechu, chrząknięć, uśmieszków itp. Sztuczna inteligencja nazwałaby to pewnie dodaniem biologicznego szumu do jej czystej wymowy ;)

Punktem wyjścia miała być właśnie miłość, firma chciała stworzyć bota, który stylem swojego mówienia miałby szansę z nami poflirtować. Trzeba przyznać, że wrzucone na YouTube demo robi wrażenie, choć dla osoby, która interesuje się tą tematyką, tajemnicą czego się słucha wciąż nie będzie. Choć algorytm brzmi chyba najbardziej naturalnie z tych, które miałem okazję słyszeć, to jednak da się wyłapać oznaki istnienia pewnego nienaturalnego wzorca wymowy.

Dla reklam i gier

Technologia została zaimplementowana do ich programu służącego do syntetyzowania mowy, przeznaczonego głównie dla twórców reklam czy gier. W programie można należy wybrać wzorzec głosu, a następnie można określić, w jakim nastroju ma być wypowiedziany wprowadzony na klawiaturze tekst. Do wyboru są następujące style: gniew, strach, smutek, szczęście, radość, zaloty, nieśmiałość, drażnienie i przechwalanie.

Brzmi to imponująco, ale przechwałki postanowili zweryfikować dziennikarze The Verge. Wyciągnięto od Sonantic informację, że wypowiedź z YT była jednak „ręcznie dopieszczana”, choć ponoć w bardzo niewielkim stopniu. Amerykański portal poprosił też firmę o zsyntetyzowanie napisanego przez nich tekstu w kilku wybranych opcjach.

Surowy materiał nie porywa...

Wynik tego eksperymentu możecie odsłuchać na The Verge, kliknijcie tutaj. Nikt chyba niema wątpliwości, że brzmi to o wiele mniej naturalnie niż w spocie reklamującym tę technologię... Z drugiej strony, na potrzeby krótkich wypowiedzi do spotów reklamowych, czy dla gier, w których i tak tolerujemy różne nieścisłości, efekt powinien być zadowalający i jest z pewnością jednym z najlepszych na rynku.

Czy doprowadzenie go do poziomu z ich reklamy wymaga niewielkich zabiegów? Moim zdaniem nie do końca, choć nie czuję się tu aż takim specjalistą, żeby ferować ostateczne wyroki. Fajnie by było, gdyby firma pokazała timeline programu z naniesionymi korektami, dałoby to nam ogląd, jak dalece w prace sztucznej inteligencji wciąż musi ingerować człowiek.

Na dziś syntezatory mowy wciąż dalekie są od perfekcji, ale trzeba mieć na uwadze, że kiedyś osiągną poziom, w którym większość z nas będzie miała problem, aby taką manipulację rozpoznać. Dlatego bardziej interesuje mnie nie to, kiedy taka technologia się pojawi, ale czy prawo zdąży wyprzedzić technologię i wprowadzi obowiązek informowania, czy rozmawiamy z maszyną, czy człowiekiem oraz jednoznacznie określi odpowiedzialność operatorów bota, za jego ewentualne błędy.