Można powiedzieć, że Baidu to odpowiednik Google, ale w Chinach, jako że jest tam najpopularniejszą wyszukiwarką internetową. Jak na dobrego naśladowcę przystało, Chińczycy również zajęli się badaniami nad AI otwierając w 2013 roku laboratorium badawcze sztucznej inteligencji w Dolinie Krzemowej. Nad czym dokładnie mogli tam pracować? Już wiadomo.
Niedawno Google stworzyło WaveNet, program do syntezy mowy. Nieźle się spóźnili, prawda? Przecież syntezatory mowy istnieją już od dłuższego czasu i korzystamy z nich chociażby za pośrednictwem naszych nawigacji samochodowych… No tak, tylko że Google postarało się o znacznie lepsze wykonanie. Standardowo wszystkie syntezatory mowy korzystają z techniki polegającej na zgromadzeniu bardzo dużej bazy wypowiedzi jednego lektora, po czym wykorzystuje te dźwięki do imitowania mowy, którą słyszymy w efekcie końcowym.
Potrzebujemy lepszych efektów
W tym wypadku efekt jest na tyle naturalny, na ile jest to możliwe, czyli mogłoby być lepiej. Nie ma możliwości płynnego zmieniania sposobu w jaki słowa są wypowiadane, nacisku jaki kładziemy na określone części zdania. Nie możemy też zmienić głosu naszego lektora, ponieważ wiązałoby się to z ponownym nagrywaniem całej bazy dźwięków. W razie potrzeby taki syntezator mowy działa i wywiązuje się z powierzonych mu zadań, ale to wciąż nie jest poziom, który mógłby kiedyś umożliwić realizację naszego marzenia rodem z science fiction – komputery posługujące się mową niemożliwą do odróżnienia od tej w pełni ludzkiej, a w przyszłości prowadzenie z nimi bardzo płynnych rozmów.
Rozwiązaniem jest samodzielne generowanie fonemów (podstawowych, najmniejszych jednostek dźwięków danego języka) przez komputer. Najlepiej, żeby robił to na zasadzie uczenia się z prawdziwej mowy podczas jej słuchania i porównywania z wersją tekstową. Baidu stworzyło coś takiego inspirując się osiągnieciami Google DeepMind, którego zaawansowany syntezator mowy nosi nazwę WaveNet. Pracownicy chińskiej firmy twierdzą, że ich wykonanie jest lepsze. Ich dzieło nosi nazwę DeepVoice.
Dla modelu syntezy mowy zaimplementowaliśmy wariant WaveNet, który wymaga mniejszej ilości parametrów, a jego trening przebiega szybciej. Poprzez wykorzystywanie sieci neuronowych dla każdego składnika mowy, uzyskaliśmy bardziej elastyczny i prostszy system.
Czytaj dalej poniżej
Parę godzin aby nauczyć się mowy
Opracowany przez Baidu system jest w stanie nauczyć się ludzkiej mowy w zaledwie parę godzin. Pracownicy firmy twierdzą, że synteza mowy w czasie rzeczywistym jest możliwa dzięki ich osiągnięciom. Ich system jest wyjątkowo elastyczny i w krótkim czasie może zostać wytrenowany na nowo, poprzez dostarczenie mu całkowicie nowych zbiorów danych.
Nasz system jest możliwy do wytrenowania bez ingerencji ze strony człowieka, co przekłada się na diametralne uproszczenie procesu tworzenia systemów TTS (Text To Speech) – mówią ludzie z Baidu.
Ulepszanie umiejętności komputerów w generowaniu ludzkiego języka to fajny temat, który przekłada się na wyższy komfort interakcji ludzi z różnego rodzaju urządzeniami. Najtrudniejsze w tym wszystkim jest uzyskanie kompromisu między mocą obliczeniową potrzebną do przetwarzania danych, a jakością generowanej mowy. Jeżeli chcemy słuchać płynnych wypowiedzi ze strony np. naszego zegarka, które będą idealnie dopasowywać się do kontekstu wypowiedzi i charakteryzować się zmianą sposobu wypowiadania słów w zależności od charakteru zdania, to musimy się liczyć z faktem, że należałoby go w jakiś sposób połączyć z… superkomputerem?
Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu