7

Grzegorz, szukasz oprogramowania do przepisywania mowy na tekst? Za kilka lat pogadaj z Microsoftem

Jakiś czas temu Grzegorz Marczak mnie zaskoczył - na Facebooku publice oznajmił, że dobrze zapłaciłby za dobre oprogramowanie, które przepisałoby tekst na do komputera z mowy. I tutaj słowo - klucz: naprawdę dobre. Przynajmniej tak, aby praca związana z poprawieniem maszyny nie była dłuższa niż samo wyartykułowanie tekstu, który chcemy napisać. Microsoft w tej dziedzinie poczynił bardzo mocne postępy - korzystając (a jakże) z dobrodziejstw sieci neuronowych.

Microsoft osiągnął wiele, jeżeli chodzi o zamianę tekstu na mowę. Jeszcze 5 lat temu mechanizmy odpowiedzialne za rozumienie tekstu z mowy notowały średnią częstotliwość występowania błędu na poziomie 25 procent. Czyli bardzo słabo. Dzisiaj firma zdążyła zejść poniżej 6 procent, co jest naprawdę świetnym wynikiem. Okazuje się, że mechanizm Microsoftu jest lepszy od człowieka, który podczas rozumienia tekstu ze słuchu (i konieczności jego przepisania) z reguły potrafi się pomylić w 6% całego tekstu.

Jednak to nie koniec prac inżynierów – system dalej nie gwarantuje absolutnie bezbłędnego przepisywania informacji ze słuchu przez maszynę. Ciekawy jest jednak mechanizm działania. Załóżmy, że zasłyszano wyraz „piękny” – sztuczna inteligencja stojąca za mechanizmem ustali, jakie wyrazy mogą się pojawić po tym, przygotuje się do tego, poszuka synonimów możliwych do użycia za chwilę. Dzięki temu oszczędza sobie nieco czasu przygotowując się do przepisania danego wyrazu już zawczasu.

microsoft

Nie wiadomo, co Microsoft zrobi dalej z tą technologią. Bardzo możliwe, że jeszcze bardzo długo pozostanie ona w sferze badań, zanim trafi do produktów, gdzie zostanie zintegrowana z usługami. Ale taki margines błędu jest niezwykle obiecujący. Cortana jeszcze lepiej rozumiejąca mowę, tłumacze lepiej budujące zdania, używające w mądrzejszy sposób synonimy… dużo można na tym ugrać. Naprawdę dużo. Google ostatnio chwalił się tym, iż nowy system odpowiedzialny za tłumaczenie jest lepszy niż kiedykolwiek i lepiej operuje na kontekście. Coś mi się wydaje, że giganci mocno będą konkurować w dziedzinie inteligentnych rozwiązań.

Sieci neuronowe i uczenie maszynowe coraz mocniej wpływają na technologie informacyjne Sam, inspirując się pytaniem Grzegorza w mediach społecznościowych zastanawiałem się, czy taka technologia w ogóle ma szanse bytu. I okazuje się, że owszem, ma. Ale nie jestem pewien czy w takim zastosowaniu, o jakim myślimy oboje. Co innego rozumieć tekst mówiony i potem go przetłumaczyć gdy nie ma go dużo. Podyktowanie całego tekstu, notki blogowej to już zadanie bardzo trudne nie tylko dla maszyny, ale i dla człowieka. Mam wrażenie, że inaczej byłyby dyktowane, a inaczej pisane takie teksty. Czy byłyby lepsze – nie wiem. Na pewno ich post-edycja dalej mogła być bardzo problematyczna. Bo przecież tekst to nie same litery, prawda?