Google

Google testuje system rozpoznawania mowy offline. Jest nawet siedmiokrotnie szybszy!

Tomasz Popielarczyk
Google testuje system rozpoznawania mowy offline. Jest nawet siedmiokrotnie szybszy!
12

Rozpoznawanie głosu to technologia, której swoją uwagę poświęcają giganci świata IT. Google stawia na tym polu bardzo ważny krok, opracowując mechanizm, który działa w pełni offline i jest przy tym bardzo kompaktowy.

20,3 MB - taki rozmiar ma dokładnie mechanizm odpowiadający za rozpoznawanie głosu offline, który opracował Google. Co jednak szczególnie ważne, działa on nawet siedmiokrotnie szybciej niż jego odpowiednik online. Trudno się dziwić, bo obecnie wszystkie komendy głosowe są przesyłane na serwery Google'a, gdzie poddaje się je analizie. Dopiero wówczas zostaje wysłana odpowiedź i nasze urządzenie wykonuje określoną czynność. To wiąże się z dużym opóźnieniem, a przy połączeniach słabej jakości właściwie uniemożliwia kontrolowanie urządzenia za pomocą głosu.

A tymczasem znaczna część funkcji, jakie obecnie znajdziemy w Androidzie nie wymaga połączenia z siecią. Weźmy chociażby pisanie wiadomości, nastawianie alarmu, zapisywanie notatek (te mogą zostać zsynchronizowane przecież później) czy nawet nawiązywanie połączeń głosowych. Zresztą korzyści nie sprowadzają się tylko do tego. Nawet w przypadku wyszukiwania głosowego odpada nam konieczność analizy polecenia przez serwery Google'a. Do wyszukiwarki trafia zatem od razu przetworzony ciąg, co może przyśpieszać cały proces.

Przy czym trzeba tutaj od razu zaznaczyć, że nie mówimy o teoretycznej technologii. Ten mechanizm już przetestowano na dwuletnim Nexusie 5 z czterordzeniowym CPU 2,26 GHz oraz 2 GB RAM-u (dzisiejszy średniak). Efekty są zadowalające, co wynika przede wszystkim z kompaktowych rozmiarów całego systemu. Google zastosował tutaj techniki kompresji, a za dyktowanie oraz komendy głosowe odpowiada ten sam, wspólny mechanizm. Całość poddano treningowi na 3 milionach anonimowych próbek głosu. Każda z nich była puszczana w 20 wariantach opatrzonych różnego rodzaju zakłóceniami w postaci dźwięków z filmów z YouTube'a. W sumie daje to ok. 2 tys. godzin. System sprawdzał się dobrze, ale nie idealnie - odsetek błędnie rozpoznanych słów wynosił 13,5 proc.

To oznacza, że wdrożenie tej technologii do współczesnych smartfonów, a także wearables nie jest wcale odległą perspektywą. Nie zdziwię się, jeżeli pierwsze konkretne zapowiedzi w tej kwestii pojawią się już na nadchodzącej konferencji Google I/O. Tym sposobem Google Now uzyskałby znaczącą przewagę nad konkurencją, a same komendy głosowe miały większą szansę na wejście na stałe do świadomości użytkowników - nie tylko tych technologicznych. Sam dotąd byłem mocno sceptyczny, ale odkąd język polski jest tak dobrze wspierany, sam coraz częściej "rozmawiam" z zegarkiem...

Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu

Więcej na tematy:

Googlesirigoogle nowCortana