Technologie

Ta aplikacja sprawi, że przemówisz zupełnie innym głosem i będziesz brzmiał naturalnie

Kamil Świtalski
1

Projekty oparte na AI pozwalające zmieniać głos są coraz bardziej dopracowane, Kore Recast jest tego perfekcyjnym przykładem.

Internet to miejsce, w którym niejedno już widzieliśmy. Coraz więcej osób tworzących rozmaite treści online, z różnych powodów decyduje się w ostatnich latach nie publikować swojego wizerunku. Mimo że mają dużo do powiedzenia i śledzą ich tysiące ludzi z całego świata, ci wolą pozostać anonimowi — i chowają się za rozmaitymi awatarami. Nie mam wątpliwości, że będzie ich stale przybywać — tak samo jak regularnie jesteśmy świadkami udoskonalania narzędzi, którzy pozwalają tzw. vTuberom tworzyć jeszcze bardziej perfekcyjne kreacje w sieci. Ale poza ukrywaniem wizerunku i odwzorowaniem ruchów, dochodzi także kwestia głosu. Sztuczna inteligencja pozwala ten aspekt modyfikować coraz lepiej z każdym dniem, a Koe Recast jest tego perfekcyjnym przykładem, który w krótkich nagraniach możecie sprawdzić na własnej skórze.

Źródło: depositphotos.com

Koe Recast - platforma która pozwoli ci zmienić głos nie do poznania

Syntezatory głosów są z nami od wielu, wielu lat — czytając m.in. wklejane im komunikaty. Koe Recast jednak nie chce gotowych tekstów, a zmiany naszego głosu — w prosty, intuicyjny sposób. Na tę chwilę do wyboru mamy kilka głosów, które możemy potestować w próbkach głosowych które sami wgrywamy za pośrednictwem dedykowanej strony internetowej. Kilkudziesięciosekundowe próbki możemy odsłuchać w różnych stylach — na tę chwilę Koe Recast oferuje 10 różnych wariantów, od bardziej klasycznych po te... dość abstrakcyjne, jak głos postaci rodem wyrwanej z japońskiej kreskówki.

Aby uzyskać najlepsze rezultaty, zadbaj o odpowiednie warunki:

  • Mów blisko swojego mikrofonu;

  • Mów powoli przez około 5-20 sekund;

  • Wyraź dużo emocji i tonu w swoim nagraniu!

  • Przyszłe aktualizacje poprawią jakość konwersji i emocjonalność;

  • Koe: Recast nie obsługuje w pełni śpiewu, języków tonalnych, ani plików o długości > 30 sekund

A jeżeli nie chcecie testować tego na własnym przykładzie, to tutaj twórcy przygotowali zestaw krótkich wideo z przemówieniem Marka Zuckerberga w której porównują zarówno oryginał, jak i kilka wariantów głosów sztucznej inteligencji która przerabia głos twórcy Facebooka. Idzie jej naprawdę dobrze. Wszystko dzięki temu, że zaawansowane algorytmy podchodzą kreatywnie do materiału źródłowego.

Jesteśmy w stanie zagłębić się i zmienić charakterystykę głosów w przestrzeni osadzania, którą stworzyliśmy. Naszym celem jest modyfikacja części dźwięku, które odpowiadają osobistemu stylowi mówcy lub barwie głosu, przy jednoczesnym zachowaniu części dźwięku, które odpowiadają treści mówionej, takiej jak prozodia i słowa. Dzięki temu możemy zmienić styl czyjegoś głosu na dowolny inny, włączając w to jego postrzeganą płeć, wiek, pochodzenie etniczne itd.

Na tę chwilę to projekt-ciekawostka, który zaskakująco dobrze radzi sobie w powierzonym mu zadaniu. Ale twórcy Kore Recast pracują nad tym, by ich wynalazek wspierany przez sztuczną inteligencję działał nie tylko dla wcześniej przygotowanych nagrań, a pozwalał być także kreatywnie wykorzystywany w czasie rzeczywistym — podczas rozmów w popularnych aplikacjach czy livestreamach. Tym co zapala u mnie lampkę ostrzegawczą są słowa twórców serwisu, którzy wciąż rozważają wprowadzenie do bazy głosów... celebrytów. Nie brzmi to zbyt optymistycznie — i sporo w tym etycznych znaków zapytania, zwłaszcza w kontekście coraz bardziej wiarygodnie przygotowywanych deepfake'ów.

Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu