16

Microsoft już nie dysponuje najdokładniejszym rozpoznawaniem mowy na świecie

Microsoft mocno rozwija swoje przedsięwzięcia oparte na uczenie maszynowe oraz sztuczną inteligencję. Jednym z osiągnięć obok prowadzonych przez siebie badań było stworzenie mechanizmu rozpoznawania mowy, który charakteryzuje się bardzo niskim procentem błędów podczas analizowania danych wejściowych. Microsoft jednak nie nacieszył się długo pozycją lidera - wyprzedził go IBM.

W 2016 roku Microsoft chwalił się, że odsetek błędów w jego mechanizmie wynosi 6,5% . IBM jednak nie próżnował i w nieco ponad pół roku stworzył maszynę, która popełnia błędy jedynie w 5,5% przypadków, co – jak sądzi firma – jest bardzo znaczącym zbliżeniem się do granicy, którą wyznaczają ludzie w komunikacji. Jak podaje IBM, w trakcie rozmowy dwojga ludzi, procent błędów wynosi około 5,1 procenta.

IBM udało się tego dokonać z pomocą technologii: Long Short-Term Memory oraz WaveNet. Dodatkowo, do maszyny trzeba było wprowadzić sporo wzorców akustycznych, za pomocą których miała się ona nauczyć rozpoznawać konkretne wyrazy – nawet, jeżeli występowało w języku kilka, które brzmiały niesamowicie podobnie. Maszyna operuje również na kontekście, a zatem musi (w specyficzny dla siebie sposób) język rozumieć. Dla badaczy z IBM inspiracją jest to, jak działa ludzkie ucho w połączeniu z mózgiem oraz głosem – bazując na to, co już wiadomo o tym połączeniu, naukowcy postanowili przynajmniej w szczątkowy sposób odtworzyć to w maszynie. Sukces inżynierów IBM to efekt kilkunastu lat pracy, zbierania informacji i opracowywania mechanizmów rozpoznawania mowy. Jak przyznaje sama firma, to dopiero początek – granica błędu w trakcie analizowania danych wejściowych ma być jeszcze niższa i według naukowców, jest to poziom możliwy do uzyskania.

To dobra wiadomość dla konsumentów

Mechanizmy rozpoznawania mowy w przyszłości będą ważniejsze, niż kiedykolwiek. Już teraz widać, że istnieje ogromne parcie na wdrażanie rozwiązań z kręgu IoT, technologia 5G ma te procesy przyspieszyć. Operowanie tym wszystkim za pomocą smartfona nie będzie do końca wygodne – dlatego też przyszłość widzę w takich urządzeniach jak Google Home, czy Amazon Echo, które nie tylko pozwalają na interakcję z inteligentnym asystentem, ale również spinają inne sprzęty w domu podłączone do sieci.

Uzyskanie jak najniższych odsetków błędów w trakcie analizy takich danych jest nie tylko koniecznością, ale i ogromnym wyzwaniem dla naukowców. Oczywiście, granica błędu dla różnych języków będzie zupełnie inna – nasze rozumienie mowy mocno zależy od tego, czy posiadamy umiejętności posługiwania się danym dialektem, czy językiem. Bez tego, będziemy w stanie usłyszeć jedynie zbitek nic nieznaczących dla nas dźwięków. Maszyna robi to podobnie, ale nie tak sam. Bardzo ważny jest kontekst rozmowy, z którego można wyciągnąć sporo informacji na temat tego, jaki wyraz powinien się pojawić w konkretnym zdaniu.

  • ja

    ‚procent błędów wynosi około 5,1 procenta’ wyciąłbym jeden z tych procentów, bo dziwnie brzmi:)

  • Maciej

    Swoją drogą… w cortanie nie ma już możliwości interakcji w języku angielskim. Można jedynie poprosić ja o wyszukanie jakichś rzeczy, ustawienie alarmu itd.

    • wombat

      Interakcje nadal działają

    • Maciej

      Mi nie :(

    • wombat

      Nie wiem dlaczego, ostatnio po wypowiedzeniu słów „let’s play the game” włączyła grę w filmowe kalambury

  • zakius

    w asystentach mogłaby być opcja nauki, ale nie „przeczytaj co ci pokażę” tylko „wpisz co źle rozumiem”, do tego w trzech trybach: zapamiętaj to lokalnie, naucz wszystkie moje urządzenia i pomóż udoskonalać rozpoznawanie mowy dla wszystkich użytkowników (udostępniane by były tylko pary nagranie i tekst)
    no i jakiś filtr trolli do tego, bo już widzę jak armia anonimowych uczy Cortanę rozpoznawać „can you check weather for tomorrow” jako „Hitler did nothing wrong” albo coś w tym stylu

  • Kamil Ro. Dzióbek

    5,5% to pewnie w angielskim, bo tam jest dużo słów które podobnie brzmią lub identycznie, a znaczą zupełnie co innego.
    Gdyby to samo zrobili dla języka polskiego to by było lepiej, bo by im się tylko myliło :
    róże rurze
    może morze
    A jakby dali kontekst to by mieli prawie 100%. No, ale leniwi amerykano-anglicy niecąca się uczyć języka polskiego. Języka najbliższego założycielom Imperium Lechickiego, które to było kolebka kultury i cywilizacji.

    Nie ma sensu robić systemu rozpoznającego w 100% mowę naturalną. Po prostu nalezy zmodyfikować mowe by była ona bardziej rozpoznawalna dla komputerów. Zamiast ‚seks’ mówić ‚segz’. Zamiast ‚penis’ mówić ‚benis’. Zamiast ‚Polska’ mówić ‚Bolska’. Już kilka osób podchwyciło mój pomysł i go stosują.

    • Niebezpieczny

      Zapomniałeś o słowie „zamek” lub „guma” ;)

  • degen

    Tyle lat nasłuchiwali na desktopach ze w końcu ogarnęli ludzką mowę

    • Szemot

      No ile? Całe półtora roku.

    • degen

      Jesli nawet tylko poltora roku to z ich potencjalem jest co jak dziesieciolecie

    • Szemot

      Googlowi i tak nie dorównają

  • „to dobra wiadomość dla konsumentów” -ale nie tych posługujących się językiem polskim.

    • ThinkTank

      Dokładnie tak. Firma która jako pierwsza ogarnie język polski zostawi całą resztę mooooooocno z tyłu.

    • Miszel

      Google now świetnie radzi sobie z rozpoznawaniem polskiego.

  • jed

    „granica błędu w trakcie analizowania danych wejściowych ma być jeszcze niższa i według naukowców, jest to poziom możliwy do uzyskania.”

    jaki jest ten poziom?