Acceleration of Connection
4

Sieć neuronowa od DeepMind daje głos Google Assistant

Jak możemy wyczytać na blogu firmy DeepMind, większość systemów syntezy mowy działa na zasadzie concatenative TTS, która korzysta z dużego zbioru nagrań wysokiej jakości, zebranych od pojedynczego lektora (w ciągu wielu godzin). Te nagrania zostają podzielone na malutkie fragmenty, które następnie mogą być łączone w celu formowania pełnych wypowiedzi (takich, jakie są akurat potrzebne). Jednak takie systemy mogą dawać rezultaty, które brzmią nienaturalnie oraz są trudne do modyfikowania, ponieważ należałoby nagrać całkowicie nowy zbiór, za każdym razem gdy chcemy wprowadzać zmiany – np. nowe emocje czy inna intonacja.

Alternatywny model pozwala pokonywać niektóre z tych ograniczeń, jest on określany jako parametric TTS. Niestety nie jest to żaden złoty środek, ponieważ ta metoda również ma swoje wady. Bazuje na dźwiękach generowanych przez komputer, które uwzględniają określone parametry, np. zasady gramatyczne czy sposób w jaki są tworzone dźwięki za pomocą ruchów ust. Mimo tego, że metoda jest tania i relatywnie szybka, efekt końcowy jest wątpliwej jakości.

WaveNet

Ten opis był niezbędny do tego, żeby DeepMind mogło się pochwalić tym, iż ich podejście do tematu jest całkowicie inne. Duża ilość próbek mowy posłużyła do wytrenowania sieci neuronowej, która decydowała o tym jakie tony po sobie następują oraz jakie kształty fali (waveform) są realistyczne (a jakie nie są). Tak wytrenowana sieć zabrała się za syntezę próbki mowy. Po wygenerowaniu jednej próbki, generowała drugą, ale brała pod uwagę wszystkie wartości tej wcześniejszej. W związku z tym głos będący efektem końcowym takiej pracy, zawiera naturalnie brzmiące intonacje oraz inne pozytywne cechy. Tak jak pozostałe systemy typu TTS, WaveNet korzysta z tekstu, który informuje go o tym jakie słowa należy wygenerować.

Mimo wielu zalet, opracowany model wymagał dużo mocy obliczeniowej, więc mimo posiadania czegoś naprawdę fajnego, nie było zbyt wielu szans na implementację w prawdziwym świecie. Teraz DeepMind chwali się tym, że opracowano szybszy model, który w dodatku generuje dźwięki o wyższej jakości. Ponadto nowsza wersja WaveNet jest wykorzystywana do generowania głosu Google Assistant na wszystkich platformach, w wersji angielskiej oraz japońskiej.

Zachęcam do posłuchania różnicy w generowanych dźwiękach. Próbki znajdują się na stronie DeepMind.

sieć neuronowa

Asystenci głosowi będą coraz lepsi

Ciekawe jak dobrych asystentów głosowych możemy oczekiwać w przyszłości? Nie dość, że będą brzmieć dokładnie tak jak człowiek, to może jeszcze zaczną sprawiać wrażenie inteligentnych? To znaczy… dzisiaj mówi się na wszystko, że jest inteligentne, ale mam tu na myśli coś więcej. Tak sprytnie stworzone algorytmy, że będziemy mieli wrażenie, iż stojący przed nami kawałek elektroniki jest godnym partnerem do rozmowy.

Źródło

  • NDIE

    różnica w jakości dźwięku jest duża i nie słychać tego robotycznego dźwięku. robi wrażenie.

  • maciej

    warto zauważyć, ze DM imponująco szybko zoptymalizowal i wdrożyl rozwiązanie do tego produktu, przy czym model nie wymaga dedykowanego proca do obsługi (o ile mi wiadomo).

    wraz z pojawianiem się dedykowanych bibliotek i sprzętu obsługującego gotowe modele można spodziewać się dużego skoku w kolejnych 2-3 latach.

    martwi mnie tylko świadomość, ze trenowanie sieci w sensownym czasie wymaga chorych ilości GPU/CPU, niedostępnych dla szarego człowieka (nawet rozpatrując opcje w chmurze). aplikacje ML to będzie domena dużych graczy, bez szans na ciekawe projekty od zwykłych devsow.

    • ᗪ ᒍ ᗩ K ᗪ E K I E ᒪ

      Jak to niedostępnych. Na GCP masz dostęp do ML Engine lub maszyn z GPU. I wcale nie trzeba tak „chorych ilości”. Zerknij na Kaggle i poszukaj artykułów ludzi którzy wygrali np 5k za model do rozpoznawania koloru światła na skrzyżowaniu.

  • mleczaj wełnianka

    „sprawiać wrażenie inteligentnych” a jest kto w stanie odróżnić jedno od drugiego?
    Może sprawujący wrażenie inteligentnego automat po prostu jest inteligentny?