halo 4 cortana
9

Ogromne osiągnięcie Microsoftu. Sztuczna inteligencja rozpoznaje mowę jak człowiek

Alternatywne interfejsy, szczególnie te, które opierają się na rozpoznawaniu ludzkiej mowy to nie tylko szansa dla osób, które mają problemy z typowymi sposobami interakcji z urządzeniami. To także niesamowita szansa dla idei inteligentnych domów oraz urządzeń połączonych, którymi możemy sterować wygodnie tylko za pomocą głosu. Do tego oczywiście jest potrzebne niemal idealne rozpoznawanie ludzkiej mowy.

Microsoft już wcześniej miał okazję odtrąbić sukces na tym polu. Otóż, w październiku zeszłego roku badacze giganta ogłosili, że ich mechanizm rozpoznawania mowy osiągnął stopień błędu na poziomie 6.3 procent (WER) w teście Switchboard. Kilka miesięcy później IBM ogłosił jednak, że udało się ów wynik pobić, schodząc do 5,5 procent WER, a następnie już do 5,1 procent – czyli do poziomu, w którym zaczynamy rozmawiać już o możliwościach przyrodzonych tylko ludziom. Microsoftowi po dłuższym czasie udało się wprowadzić zmiany, które pozwoliły na osiągnięcie podobnego wyniku, który ucieszy wszystkich fanów rozpoznawania mowy i wdrażania owego mechanizmu do różnych klas urządzeń.

Microsoft musiał opracować sporo nowych poprawek we własnej technologii rozpoznawania mowy. Stworzona przez badaczy sieć neuronowa dotycząca modeli językowych oraz akustycznych została wzbogacona o funkcje, które pozwalają na lepsze przewidywanie tego, co zostanie zaraz wypowiedziane przez użytkownika. Między innymi, sztuczna inteligencja jest teraz w stanie korzystać z całej historii konwersacji z użytkownikiem, by ocenić, jaki może być kolejny wątek rozmowy. Wszystko opiera się na kontekście – jeżeli wcześniej użytkownik rozmawiając na przykład o jakimś mieście następnie pytał o aktualną pogodę w nim, sztuczna inteligencja ma być na to lepiej przygotowana w powtórzonym scenariuszu konwersacji.

sztuczna inteligencja

Według badaczy jest jeszcze sporo do zrobienia – otóż sztuczna inteligencja jest przystosowana do pracy w „idealnym środowisku”. Co to oznacza? Mniej więcej tyle, że wszystko odbywa się w wyizolowanych warunkach eksperymentalnych – bez jakichkolwiek czynników, które mogłyby zaburzyć pracę mechanizmu. Teraz należy zastanowić się, w jaki sposób ulepszyć sztuczną inteligencję, by równie dobrze radziła sobie w sytuacjach, w których np. w otoczeniu znajduje się sporo hałasów, które mogą wprowadzić w błąd maszynę.

Powinniśmy z uwagą patrzeć na osiągnięcia gigantów technologicznych na polu rozpoznawania mowy. Tego typu interfejsy to przyszłość nowych technologii

Choć ów rozwój odbywa się nieco ospale, inteligentni asystenci i ogółem – interfejsy opierające się na naturalnym dialogu między użytkownikiem a maszyną będą coraz powszechniejsze. Inteligentne głośniki, telefony komórkowe, systemy inteligentnego domu, a nawet telewizory to urządzenia, które w przyszłości mogą nam zaoferować sporo więcej, jeżeli systemy rozpoznawania mowy będą działać w nich naprawdę dobrze. Sporym wyzwaniem dla badaczy jest opracowanie odpowiednio dokładnych systemów dla różnych języków – do dziś nie możemy korzystać z większości asystentów głosowych w języku polskim, choć żywimy nadzieję, że w ciągu najbliższych lat to się zmieni.

  • Łukasz Rejman

    Ludzie do rozpoznawania mowy wykorzystują też oczy, patrząc na usta (tzw. efekt McGurka). Myślę, że w przyszłości może mieć to zastosowanie, przez wykorzystanie kamerki i analizowanie ruchu warg. Wszystkie smartfony mają przedni aparat, więc da się to zrobić. ;) A może kiedyś powstanie technologia rozpoznawania mowy tylko na podstawie obrazu?

    • Tomasz Sot

      Da się to zrobić używając zaawansowane matryce optyczne zdolne analizować załamania światła w atmosferze wywołane falą dźwiękową a następnie konwenterowanie ich na dźwięk za pomocą algorytmów. Pytanie tylko po co skoro można korzystać z samej fali dźwiękowej i mikrofonu, jest to prostsze a więc tańsze i równie skuteczne .

    • Kamil Ro. Dzióbek

      Spider web kiedyś pisał, że można odtworzyć dźwięk z obrazu, co może służyć do podsłuchiwania na duże odległości gdzie dźwięk nie dochodzi, ale trzeba użyć teleskopu. Tam analizowano drgania przedmiów pod wpływem dźwięku. Załamania światła pod wpływem dzwięku raczej nieda się zaobserwować.
      http://www.spidersweb.pl/2014/08/dzwiek-z-obrazu.html
      Dla Łukasza chodziło o odczyt ruchu warg + analiza dźwięku. To teoretycznie powinno dać wyższy współczynnik odczytu.
      Pytanie tylko czy algorytm mylący fonemy z dźwięku, nie będzie tych samych fonemów mylił z obrazu.

    • Kamil Ro. Dzióbek

      Google twierdzi, że kombinował z rozpoznawaniem słów z ruchu warg i osiągnęli 46,8 % skuteczności.
      http://www.benchmark.pl/aktualnosci/sztuczna-inteligencja-czyta-z-ruchu-warg-lepiej-niz-czlowiek.html

  • Mailosz

    Jeszcze tylko niech zrobią Shazama, ale żeby rozpoznawał jaką piosenkę chiałem zaśpiewać, a nie jaka mi wyszła (takie są efekty nauki „muzyki” w polskiej szkole, gdzie uczyli nas na pamięć tekstów pieśni, a nie śpiewać :) )

    • Sebastian Florek

      Tak z ciekawości, lekcje Muzyki, to nadal ściema jak dawniej czy młodzi ludzie poznają zarówno podstawy muzyczne jak też dokonania muzyczne.

    • Mailosz

      Pewnie zależy to od szkoły, ale jak widać państwo nie gwarantuje „minimalnego poziomu”. U mnie było tak: nauczyliśmy się jednej piosenki na pamięć, zaśpiewaliśmy na ocenę (bez żadnego przygotowania, czy choćby info o technikach śpiewania) i przez resztę roku mieliśmy wolne, a nauczyciel przysypiał na krześle :)

    • Sebastian Florek

      Takich odpowiedzi słyszałem więcej. Dziękuję :)
      Mam nadzieję że mimo takich lekcji, muzyka jest ważnym i istotnym elementem życia młodych ludzi, że dzięki poznaniu różnych kultur muzycznych świata, ludzie są bardziej otwarci na to co ich otacza..

  • Ymnytor

    Niestety to właśnie na gorszych warunkach powinni się skupić. Takich gdy jest wiele różnych rozmów i innych hałasów w tle. Człowiek zwykle dobrze radzi sobie z taką sytuacją, sztuczna inteligencja znacznie gorzej.