Inżynierowie Microsoft pracują nad narzędziami do rozpoznawania mowy oraz tłumaczenia jej w czasie rzeczywistym. Poniżej zamieszczam video na którym widać jak działa prototyp. Trzeba przyznać, że pobudza to wyobraźnie i to w wielu aspektach. Przede wszystkim dobre rozpoznawanie mowy jest już bardzo wartościową technologią. Połączenie tego z tłumaczeniem i syntezatorem mowy, który w czasie rzeczywistym odczytuje przetłumaczony tekst to już bardzo duży krok na przód.

Bardzo łatwo można wyobrazić sobie jaki potencjał mają takie narzędzia – rozmowa przez telefon z osobą mówiącą w innym języku, tłumaczenia na żywo na kilkanaście języków na raz. Mobilne narzędzia pozwalające nam nie tylko na bieżąco tłumaczyć zeskanowany tekst ale również odczytujące go w naszym języku itp.

Oczywiście to co pokazał MS to tylko prototyp i tak naprawdę nie wiadomo kiedy i czy w ogóle użyte technologie pojawią się na rynku.



Spodobał Ci się tekst? Poleć znajomym:

iStore

iStore

  • http://www.facebook.com/webriddles Michał Osiński

    Czyżby Microsoft wychodził ze swoją alternatywą dla Google Goggles? Faktycznie, brzmi to całkiem sensownie i myślę, że jeżeli to narzędzie będzie miało dobrą jakość tłumaczenia to na pewno z niego skorzystam nie raz.

  • http://www.filmus.pl filmy

    To co pokazałeś jest niesamowite! Zastanawiałem się zawsze jak takie urządzenia będą działały w czasie rzeczywistym. W końcu translator nie będzie „mógł przewidzieć” np. z jaką intonacją rozmówca dokończy zdanie. Widzę, że translator nie uruchomi się dopóki rozmówca nie dokończy zdania. Tłumaczenie działa więc z drobnym opóźnieniem.

    Wprowadzenie tej technologii w życie będzie krokiem milowym w komunikacji. Bariera językowa dla wyjeżdżających za granicę nie będzie już problemem. Świat skórczy się jeszcze bardziej. Myślę że M$ nie odpuści takiej okazji.

  • http://www.facebook.com/arnold.buzdygan Arnold Buzdygan

    Akceptowalne jakościowo tłumaczenie przez komputer to na razie czyste mrzonki. Szczególnie z angielskiego na normalne zwykłe języki.
    I jeżeli nie będzie jakiegoś przełomu na miarę nagrody
    Nobla to do końca naszego żywota się nie doczekamy.

    pozdrawiam
    Arek

    • http://www.tarnaski.eu/ MariuszT

      Też nie jestem hura optymistą ale mam wrażenie, że chyba zbyt pesymistycznie do tego podchodzisz. Różne przedstawiane technologie pokazują nam, że właściwie sam proces rozpoznawania mowy i tłumaczenia jest już na bardzo wysokim poziomie. Teraz pozostaje dopracowywanie baz danych, budowanie wszystkich wyjątków itd. Myślę, że wkrótce będzie nam dane porozumiewać się za pomocą takich urządzeń i liczba błędów będzie niska. Na tyle niska, że rozmówcy się dogadają.

  • http://korof.com/ Krzysztof Kornacki

    zopowiada się niezła „wojna” między MS a Google. Ciekawe, które zrobi to szybciej i lepiej. Pewnie na początku, będzie „tylko” możliwość tłumaczenia na angielski, ale później… Wyjdzie na to, że niepotrzebna będzie nam nauka języka.

  • http://bartekpopiel.pl Bartek Popiel

    Takie narzędzie zrobi moim zdaniem rewolucję w biznesie. Osoby, które ogranicza brak znajomości języków mogłyby szybciej wprowadzać swoje produkty i usługi na nowe rynki.

    Ciekawe jak takie narzędzie poradzi sobie z chińskim gdzie sama zmiana intonacji nadaje słowu zupełnie inne znaczenie :D

    • http://www.facebook.com/arnold.buzdygan Arnold Buzdygan

      Nie poradzi.
      A już zupełnie nie wyobrażam sobie, że mogłyby na takim tłumaczeniu opierać swoje interesy przedsiębiorcy.

      pozdrawiam
      Arek

    • yoss

      Nie poradzi? a czemu to wielkie firmy nie miałyby położyć nacisku na R&D tej technologii dla języka chińskiego (wiem, upraszczam, jest wiele dialektów m.in. Standardowy język mandaryński itp) którym mówi ok 1,3 miliarda (powtarzam.. miliarda) ludzi… to jest za dużo klientów żeby ich pominąć.

      hawk!

  • http://flaker.pl/tomaszs Tom

    Rozpoznawanie mowy obecnie jest na bardzo wczesnym etapie – jak widać na filmie są błędy nawet gdy użyli rozmówców, którzy pewnie długo trenowali system przed pokazem swoim głosem. A systemy rozpoznawania mają to do siebie, że muszą uczyć się każdego głosu od nowa właściwie i trzeba mieć idealną dykcję. Jeszcze dużo czasu minie zanim zaczną działać dobrze.
    Tłumaczenie tekstów też jest wciąż na bardzo wczesnym etapie – Google Translate czy ostatnio opublikowane narzędzie przez MS działają też niezbyt dobrze. Jeżeli chodzi o język niemiecki to pierwszy lepszy artykuł z gazety nie da się przetłumaczyć. Tutaj też widać, że rozmówcy używali dosyć prostego słownictwa w celu wzmocnienia idei.
    Ale efekt jako całość jest fajny i o to chodziło zapewne w tym rozrywkowym prototypie. Wiadomo, że technologia pójdzie naprzód i za kilkanaście lat takie systemy będą codziennością.
    W ogóle to ktoś powinien im podesłać namiary na Ivonę – osiągnęliby jeszcze lepszy efekt, bo ich TTS jest słabiutki ;)

  • http://serialebrytyjskie.pl patoriku

    Jako tłumacz z wykształcenie mam swoje „ale”:

    1. Dopóki nie powstanie zaawansowana sztuczna inteligencja z milionami tekstów w bazie danych, doputy nie będzie dobrego tłumacza komputerowego. Nawet gdy taka technologia będzie dostępna, to i tak nie wierzę, żeby tłumaczenia komputerowe brzmiały naturalnie. Jeszcze długo będziemy śmiać się z googlowej wersji tłumaczenia – Babcia piekła ciastka – czyli ‘Grandma hell cookies’ – wiem, że jest już to poprawione, ale takich przykładów można podawać w setkach – a problem można rozpisać na rozprawę doktorską – co zrobiono już nie raz.

    2. Zbyt wielka różnorodność językowa nie pozwoli na szybkie ujednolicenie systemu – niby program czeka aż osoba skończy zdanie – ale przy szybkiej mowie skąd rozpozna, że ktoś ‘postawił kropkę’? Może to działać w językach, które opierają się na kontrukcji zdania – PODMIOT-ORZECZENIE-DOPEŁNIENIE (tak jak np. polski czy angielski), ale co z np. japońskim, gdzie orzeczenie występuje na końcu zdania, i do końca nie wiemy o co chodzi rozmówcy.

    3. Co z setkami tysięcy tłumaczy ustnych? Tłumaczenie konsekutywne, czy liaison nie będzie już miało miejsca? Czym się wtedy zajmą? Nadzorem tłumaczeń komputerowych?

    • Sauron

      No argument, „co będzie z tłumaczami” jest powalający! To nie ma znaczenia, co z nimi będzie, tak jak nie miało to znaczenia przy poprzednich rewolucjach w przemyśle itp. Świat idzie własnym torem a ludzie się muszą dostosować. Co innego, gdyby chodziło o górników z polskich kopalni ;-)

  • http://www.arturgrakaj.com Grakaj

    Jeśli dobrze pamiętam, to w połowie 2008 r. zrealizowałem kilka nagrań dla Microsoftu, który nie najgorzej płacił za ok. 30 minutowe odczytywanie tekstu po wdzwonieniu się na wskazany numer. Wygląda więc na to, że projekt wystartuje także w języku polskim :)

  • http://onthego.pl Marcin

    Widzę ze ostatnio temat nośny i często jakieś info się pojawia. http://onthego.pl/2010/02/17/google-sprawi-ze-budowa-wiezy-babel-moze-sie-udac/
    Ja trzymam kciuki chociaż do w miarę płynnego tłumaczenia to wydaj mi się jeszcze bardzooo daleko. Tak czy inaczej widać ze najwięksi widzą w tym niezłą kasę (i słusznie) i zapowiada się ostra walka. Większość z nas nie oczekuje pewnie perfekcyjnych tłumaczeń na początku. Wystarczyłoby na razie możliwość wypowiadania prostych zdań. Ważne jest zrozumienie.

  • bachus

    MariuszT: Też nie jestem hura optymistą ale mam wrażenie, że chyba zbyt pesymistycznie do tego podchodzisz. Różne przedstawiane technologie pokazują nam, że właściwie sam proces rozpoznawania mowy i tłumaczenia jest już na bardzo wysokim poziomie. Teraz pozostaje dopracowywanie baz danych, budowanie wszystkich wyjątków itd. Myślę, że wkrótce będzie nam dane porozumiewać się za pomocą takich urządzeń i liczba błędów będzie niska. Na tyle niska, że rozmówcy się dogadają.

    W wiekszosci sytuacji nadal jest to na poziomie znanego testu Turinga, kiedy przy tlumaczeniu przyslowania (z laciny) „duch silny ale cialo mdle” maszyna wyrzucila „Spirytus jest mocny ale mięso zgnite”

  • Pingback: tomaszs: Microsoft uczy się robić pokazówki od Google antyweb.pl/ | flaker.pl

  • http://www.e-komers.pl Tomek Komercyjny

    To chyba znak, że powinienem przestać tracić czas na naukę języków obcych.

    Taki soft w telefonie pozwoliłby np. mi mówić do mikrofonu a słuchawkę miałby w uchu kolega francuz siedzący przy tym samym stoliku.

    Bajer

  • Adam

    patoriku: Babcia piekła ciastka – czyli ‘Grandma hell cookies’ – wiem, że jest już to poprawione

    No ale „dziecko piekło ciasteczka” będzie „hell baby cookies”

  • Adam

    patoriku: Co z setkami tysięcy tłumaczy ustnych?

    Spoko spoko. Do czasu działającego systemu zdąży się ta liczba zmniejszyć.

  • http://skrybot.pl Lechu

    Jestem autorem programu Skrybot, którego głównym celem jest automatyczne rozpoznawanie mowy. Wiadomym jest, że wynik nie będzie 100 % dokładny skoro ludzie mają sami problem z rozumieniem innych ludzi – np ktoś mówi niechlujnie, za szybko, za wolno, za cicho lub połyka głoski. Jeżeli człowiek nie rozpoznaje 100% to maszyna nie będzie lepsza od człowieka. Jednak w pewnych zastosowaniach rozpoznawanie mowy może dać zaskakująco dobre wyniki – np rozpoznawanie wąskodziedzionowe – np modele medyczne. Za niedługo będzie dostępny nasz program do rozpoznawania mowy, który jest już na ukończeniu w wersji beta. Każdy będzie go mógł ściągnąć z naszej strony http://skrybot.pl

  • Pingback: Witam na blogu VoiceView! « VoiceView