Microsoft już wcześniej miał okazję odtrąbić sukces na tym polu. Otóż, w październiku zeszłego roku badacze giganta ogłosili, że ich mechanizm rozpoznawania mowy osiągnął stopień błędu na poziomie 6.3 procent (WER) w teście Switchboard. Kilka miesięcy później IBM ogłosił jednak, że udało się ów wynik pobić, schodząc do 5,5 procent WER, a następnie już do 5,1 procent – czyli do poziomu, w którym zaczynamy rozmawiać już o możliwościach przyrodzonych tylko ludziom. Microsoftowi po dłuższym czasie udało się wprowadzić zmiany, które pozwoliły na osiągnięcie podobnego wyniku, który ucieszy wszystkich fanów rozpoznawania mowy i wdrażania owego mechanizmu do różnych klas urządzeń.
Microsoft musiał opracować sporo nowych poprawek we własnej technologii rozpoznawania mowy. Stworzona przez badaczy sieć neuronowa dotycząca modeli językowych oraz akustycznych została wzbogacona o funkcje, które pozwalają na lepsze przewidywanie tego, co zostanie zaraz wypowiedziane przez użytkownika. Między innymi, sztuczna inteligencja jest teraz w stanie korzystać z całej historii konwersacji z użytkownikiem, by ocenić, jaki może być kolejny wątek rozmowy. Wszystko opiera się na kontekście – jeżeli wcześniej użytkownik rozmawiając na przykład o jakimś mieście następnie pytał o aktualną pogodę w nim, sztuczna inteligencja ma być na to lepiej przygotowana w powtórzonym scenariuszu konwersacji.
Według badaczy jest jeszcze sporo do zrobienia – otóż sztuczna inteligencja jest przystosowana do pracy w „idealnym środowisku”. Co to oznacza? Mniej więcej tyle, że wszystko odbywa się w wyizolowanych warunkach eksperymentalnych – bez jakichkolwiek czynników, które mogłyby zaburzyć pracę mechanizmu. Teraz należy zastanowić się, w jaki sposób ulepszyć sztuczną inteligencję, by równie dobrze radziła sobie w sytuacjach, w których np. w otoczeniu znajduje się sporo hałasów, które mogą wprowadzić w błąd maszynę.
Powinniśmy z uwagą patrzeć na osiągnięcia gigantów technologicznych na polu rozpoznawania mowy. Tego typu interfejsy to przyszłość nowych technologii
Choć ów rozwój odbywa się nieco ospale, inteligentni asystenci i ogółem – interfejsy opierające się na naturalnym dialogu między użytkownikiem a maszyną będą coraz powszechniejsze. Inteligentne głośniki, telefony komórkowe, systemy inteligentnego domu, a nawet telewizory to urządzenia, które w przyszłości mogą nam zaoferować sporo więcej, jeżeli systemy rozpoznawania mowy będą działać w nich naprawdę dobrze. Sporym wyzwaniem dla badaczy jest opracowanie odpowiednio dokładnych systemów dla różnych języków – do dziś nie możemy korzystać z większości asystentów głosowych w języku polskim, choć żywimy nadzieję, że w ciągu najbliższych lat to się zmieni.
Więcej z kategorii Microsoft:
- Uwaga - ten skrót na pulpicie psuje system Windows
- Microsoft znów podnosi limit wielkości plików przesyłanych w ramach Teams, OneDrive i SharePoint
- Wyciekł prawie gotowy Windows 10X. Wygląda zupełnie bez sensu...
- Nowe Menu Start i odświeżony interfejs nadchodzą - Windows 10 dostanie solidną aktualizację!
- Microsoft jest uparty jak osioł. Nowy Surface Pro 7+ mógł być o niebo lepszy