16

Microsoft już nie dysponuje najdokładniejszym rozpoznawaniem mowy na świecie

Microsoft mocno rozwija swoje przedsięwzięcia oparte na uczenie maszynowe oraz sztuczną inteligencję. Jednym z osiągnięć obok prowadzonych przez siebie badań było stworzenie mechanizmu rozpoznawania mowy, który charakteryzuje się bardzo niskim procentem błędów podczas analizowania danych wejściowych. Microsoft jednak nie nacieszył się długo pozycją lidera - wyprzedził go IBM.

W 2016 roku Microsoft chwalił się, że odsetek błędów w jego mechanizmie wynosi 6,5% . IBM jednak nie próżnował i w nieco ponad pół roku stworzył maszynę, która popełnia błędy jedynie w 5,5% przypadków, co – jak sądzi firma – jest bardzo znaczącym zbliżeniem się do granicy, którą wyznaczają ludzie w komunikacji. Jak podaje IBM, w trakcie rozmowy dwojga ludzi, procent błędów wynosi około 5,1 procenta.

IBM udało się tego dokonać z pomocą technologii: Long Short-Term Memory oraz WaveNet. Dodatkowo, do maszyny trzeba było wprowadzić sporo wzorców akustycznych, za pomocą których miała się ona nauczyć rozpoznawać konkretne wyrazy – nawet, jeżeli występowało w języku kilka, które brzmiały niesamowicie podobnie. Maszyna operuje również na kontekście, a zatem musi (w specyficzny dla siebie sposób) język rozumieć. Dla badaczy z IBM inspiracją jest to, jak działa ludzkie ucho w połączeniu z mózgiem oraz głosem – bazując na to, co już wiadomo o tym połączeniu, naukowcy postanowili przynajmniej w szczątkowy sposób odtworzyć to w maszynie. Sukces inżynierów IBM to efekt kilkunastu lat pracy, zbierania informacji i opracowywania mechanizmów rozpoznawania mowy. Jak przyznaje sama firma, to dopiero początek – granica błędu w trakcie analizowania danych wejściowych ma być jeszcze niższa i według naukowców, jest to poziom możliwy do uzyskania.

To dobra wiadomość dla konsumentów

Mechanizmy rozpoznawania mowy w przyszłości będą ważniejsze, niż kiedykolwiek. Już teraz widać, że istnieje ogromne parcie na wdrażanie rozwiązań z kręgu IoT, technologia 5G ma te procesy przyspieszyć. Operowanie tym wszystkim za pomocą smartfona nie będzie do końca wygodne – dlatego też przyszłość widzę w takich urządzeniach jak Google Home, czy Amazon Echo, które nie tylko pozwalają na interakcję z inteligentnym asystentem, ale również spinają inne sprzęty w domu podłączone do sieci.

Uzyskanie jak najniższych odsetków błędów w trakcie analizy takich danych jest nie tylko koniecznością, ale i ogromnym wyzwaniem dla naukowców. Oczywiście, granica błędu dla różnych języków będzie zupełnie inna – nasze rozumienie mowy mocno zależy od tego, czy posiadamy umiejętności posługiwania się danym dialektem, czy językiem. Bez tego, będziemy w stanie usłyszeć jedynie zbitek nic nieznaczących dla nas dźwięków. Maszyna robi to podobnie, ale nie tak sam. Bardzo ważny jest kontekst rozmowy, z którego można wyciągnąć sporo informacji na temat tego, jaki wyraz powinien się pojawić w konkretnym zdaniu.