Jak możemy wyczytać na blogu firmy DeepMind, większość systemów syntezy mowy działa na zasadzie concatenative TTS, która korzysta z dużego zbioru nagrań wysokiej jakości, zebranych od pojedynczego lektora (w ciągu wielu godzin). Te nagrania zostają podzielone na malutkie fragmenty, które następnie mogą być łączone w celu formowania pełnych wypowiedzi (takich, jakie są akurat potrzebne). Jednak takie systemy mogą dawać rezultaty, które brzmią nienaturalnie oraz są trudne do modyfikowania, ponieważ należałoby nagrać całkowicie nowy zbiór, za każdym razem gdy chcemy wprowadzać zmiany – np. nowe emocje czy inna intonacja.
Alternatywny model pozwala pokonywać niektóre z tych ograniczeń, jest on określany jako parametric TTS. Niestety nie jest to żaden złoty środek, ponieważ ta metoda również ma swoje wady. Bazuje na dźwiękach generowanych przez komputer, które uwzględniają określone parametry, np. zasady gramatyczne czy sposób w jaki są tworzone dźwięki za pomocą ruchów ust. Mimo tego, że metoda jest tania i relatywnie szybka, efekt końcowy jest wątpliwej jakości.
WaveNet
Ten opis był niezbędny do tego, żeby DeepMind mogło się pochwalić tym, iż ich podejście do tematu jest całkowicie inne. Duża ilość próbek mowy posłużyła do wytrenowania sieci neuronowej, która decydowała o tym jakie tony po sobie następują oraz jakie kształty fali (waveform) są realistyczne (a jakie nie są). Tak wytrenowana sieć zabrała się za syntezę próbki mowy. Po wygenerowaniu jednej próbki, generowała drugą, ale brała pod uwagę wszystkie wartości tej wcześniejszej. W związku z tym głos będący efektem końcowym takiej pracy, zawiera naturalnie brzmiące intonacje oraz inne pozytywne cechy. Tak jak pozostałe systemy typu TTS, WaveNet korzysta z tekstu, który informuje go o tym jakie słowa należy wygenerować.
Mimo wielu zalet, opracowany model wymagał dużo mocy obliczeniowej, więc mimo posiadania czegoś naprawdę fajnego, nie było zbyt wielu szans na implementację w prawdziwym świecie. Teraz DeepMind chwali się tym, że opracowano szybszy model, który w dodatku generuje dźwięki o wyższej jakości. Ponadto nowsza wersja WaveNet jest wykorzystywana do generowania głosu Google Assistant na wszystkich platformach, w wersji angielskiej oraz japońskiej.
Zachęcam do posłuchania różnicy w generowanych dźwiękach. Próbki znajdują się na stronie DeepMind.
Asystenci głosowi będą coraz lepsi
Ciekawe jak dobrych asystentów głosowych możemy oczekiwać w przyszłości? Nie dość, że będą brzmieć dokładnie tak jak człowiek, to może jeszcze zaczną sprawiać wrażenie inteligentnych? To znaczy… dzisiaj mówi się na wszystko, że jest inteligentne, ale mam tu na myśli coś więcej. Tak sprytnie stworzone algorytmy, że będziemy mieli wrażenie, iż stojący przed nami kawałek elektroniki jest godnym partnerem do rozmowy.
Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu