halo 4 cortana
9

Ogromne osiągnięcie Microsoftu. Sztuczna inteligencja rozpoznaje mowę jak człowiek

Alternatywne interfejsy, szczególnie te, które opierają się na rozpoznawaniu ludzkiej mowy to nie tylko szansa dla osób, które mają problemy z typowymi sposobami interakcji z urządzeniami. To także niesamowita szansa dla idei inteligentnych domów oraz urządzeń połączonych, którymi możemy sterować wygodnie tylko za pomocą głosu. Do tego oczywiście jest potrzebne niemal idealne rozpoznawanie ludzkiej mowy.

Microsoft już wcześniej miał okazję odtrąbić sukces na tym polu. Otóż, w październiku zeszłego roku badacze giganta ogłosili, że ich mechanizm rozpoznawania mowy osiągnął stopień błędu na poziomie 6.3 procent (WER) w teście Switchboard. Kilka miesięcy później IBM ogłosił jednak, że udało się ów wynik pobić, schodząc do 5,5 procent WER, a następnie już do 5,1 procent – czyli do poziomu, w którym zaczynamy rozmawiać już o możliwościach przyrodzonych tylko ludziom. Microsoftowi po dłuższym czasie udało się wprowadzić zmiany, które pozwoliły na osiągnięcie podobnego wyniku, który ucieszy wszystkich fanów rozpoznawania mowy i wdrażania owego mechanizmu do różnych klas urządzeń.

Microsoft musiał opracować sporo nowych poprawek we własnej technologii rozpoznawania mowy. Stworzona przez badaczy sieć neuronowa dotycząca modeli językowych oraz akustycznych została wzbogacona o funkcje, które pozwalają na lepsze przewidywanie tego, co zostanie zaraz wypowiedziane przez użytkownika. Między innymi, sztuczna inteligencja jest teraz w stanie korzystać z całej historii konwersacji z użytkownikiem, by ocenić, jaki może być kolejny wątek rozmowy. Wszystko opiera się na kontekście – jeżeli wcześniej użytkownik rozmawiając na przykład o jakimś mieście następnie pytał o aktualną pogodę w nim, sztuczna inteligencja ma być na to lepiej przygotowana w powtórzonym scenariuszu konwersacji.

sztuczna inteligencja

Według badaczy jest jeszcze sporo do zrobienia – otóż sztuczna inteligencja jest przystosowana do pracy w „idealnym środowisku”. Co to oznacza? Mniej więcej tyle, że wszystko odbywa się w wyizolowanych warunkach eksperymentalnych – bez jakichkolwiek czynników, które mogłyby zaburzyć pracę mechanizmu. Teraz należy zastanowić się, w jaki sposób ulepszyć sztuczną inteligencję, by równie dobrze radziła sobie w sytuacjach, w których np. w otoczeniu znajduje się sporo hałasów, które mogą wprowadzić w błąd maszynę.

Powinniśmy z uwagą patrzeć na osiągnięcia gigantów technologicznych na polu rozpoznawania mowy. Tego typu interfejsy to przyszłość nowych technologii

Choć ów rozwój odbywa się nieco ospale, inteligentni asystenci i ogółem – interfejsy opierające się na naturalnym dialogu między użytkownikiem a maszyną będą coraz powszechniejsze. Inteligentne głośniki, telefony komórkowe, systemy inteligentnego domu, a nawet telewizory to urządzenia, które w przyszłości mogą nam zaoferować sporo więcej, jeżeli systemy rozpoznawania mowy będą działać w nich naprawdę dobrze. Sporym wyzwaniem dla badaczy jest opracowanie odpowiednio dokładnych systemów dla różnych języków – do dziś nie możemy korzystać z większości asystentów głosowych w języku polskim, choć żywimy nadzieję, że w ciągu najbliższych lat to się zmieni.