Technologie

Microsoft już nie dysponuje najdokładniejszym rozpoznawaniem mowy na świecie

Jakub Szczęsny
Microsoft już nie dysponuje najdokładniejszym rozpoznawaniem mowy na świecie
Reklama

Microsoft mocno rozwija swoje przedsięwzięcia oparte na uczenie maszynowe oraz sztuczną inteligencję. Jednym z osiągnięć obok prowadzonych przez siebie badań było stworzenie mechanizmu rozpoznawania mowy, który charakteryzuje się bardzo niskim procentem błędów podczas analizowania danych wejściowych. Microsoft jednak nie nacieszył się długo pozycją lidera - wyprzedził go IBM.

W 2016 roku Microsoft chwalił się, że odsetek błędów w jego mechanizmie wynosi 6,5% . IBM jednak nie próżnował i w nieco ponad pół roku stworzył maszynę, która popełnia błędy jedynie w 5,5% przypadków, co - jak sądzi firma - jest bardzo znaczącym zbliżeniem się do granicy, którą wyznaczają ludzie w komunikacji. Jak podaje IBM, w trakcie rozmowy dwojga ludzi, procent błędów wynosi około 5,1 procenta.

Reklama

IBM udało się tego dokonać z pomocą technologii: Long Short-Term Memory oraz WaveNet. Dodatkowo, do maszyny trzeba było wprowadzić sporo wzorców akustycznych, za pomocą których miała się ona nauczyć rozpoznawać konkretne wyrazy - nawet, jeżeli występowało w języku kilka, które brzmiały niesamowicie podobnie. Maszyna operuje również na kontekście, a zatem musi (w specyficzny dla siebie sposób) język rozumieć. Dla badaczy z IBM inspiracją jest to, jak działa ludzkie ucho w połączeniu z mózgiem oraz głosem - bazując na to, co już wiadomo o tym połączeniu, naukowcy postanowili przynajmniej w szczątkowy sposób odtworzyć to w maszynie. Sukces inżynierów IBM to efekt kilkunastu lat pracy, zbierania informacji i opracowywania mechanizmów rozpoznawania mowy. Jak przyznaje sama firma, to dopiero początek - granica błędu w trakcie analizowania danych wejściowych ma być jeszcze niższa i według naukowców, jest to poziom możliwy do uzyskania.

To dobra wiadomość dla konsumentów

Mechanizmy rozpoznawania mowy w przyszłości będą ważniejsze, niż kiedykolwiek. Już teraz widać, że istnieje ogromne parcie na wdrażanie rozwiązań z kręgu IoT, technologia 5G ma te procesy przyspieszyć. Operowanie tym wszystkim za pomocą smartfona nie będzie do końca wygodne - dlatego też przyszłość widzę w takich urządzeniach jak Google Home, czy Amazon Echo, które nie tylko pozwalają na interakcję z inteligentnym asystentem, ale również spinają inne sprzęty w domu podłączone do sieci.

Uzyskanie jak najniższych odsetków błędów w trakcie analizy takich danych jest nie tylko koniecznością, ale i ogromnym wyzwaniem dla naukowców. Oczywiście, granica błędu dla różnych języków będzie zupełnie inna - nasze rozumienie mowy mocno zależy od tego, czy posiadamy umiejętności posługiwania się danym dialektem, czy językiem. Bez tego, będziemy w stanie usłyszeć jedynie zbitek nic nieznaczących dla nas dźwięków. Maszyna robi to podobnie, ale nie tak sam. Bardzo ważny jest kontekst rozmowy, z którego można wyciągnąć sporo informacji na temat tego, jaki wyraz powinien się pojawić w konkretnym zdaniu.

Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu

Reklama