8

Czy zaczniemy gadać do swoich urządzeń? Również publicznie?

Chociaż rozpoznawanie poleceń głosowych jest już dostępne w Androidzie od dawna, wychodzi na to, że sporadycznie z niego korzystam. Za każdym razem gdy sobie o nim przypomnę, na przykład podczas testów jakiegoś telefonu, jestem zaskoczony jak sprawnie działa. Owszem, czasem zdarzają się jakieś pomyłki, jednak technologia jest już w znacznej mierze dopracowana – przyspiesza wprowadzanie […]

Chociaż rozpoznawanie poleceń głosowych jest już dostępne w Androidzie od dawna, wychodzi na to, że sporadycznie z niego korzystam. Za każdym razem gdy sobie o nim przypomnę, na przykład podczas testów jakiegoś telefonu, jestem zaskoczony jak sprawnie działa. Owszem, czasem zdarzają się jakieś pomyłki, jednak technologia jest już w znacznej mierze dopracowana – przyspiesza wprowadzanie tekstu i wyszukiwanie informacji. Mimo to z niej nie korzystam i nigdy nie zauważyłem, żeby inni z niej korzystali.

Ujmę to inaczej, zdarza się, że korzystam, np. podczas jazdy samochodem, gdy nie mam wolnej ręki a chcę wprowadzić adres bądź odpowiedzieć na SMSa. Mimo wszystko w praktyce zdarza się to raz na miesiąc. To jednak chyba jedyna sytuacja w której uciekam się do dyktowania. Ostatnio przypomniałem sobie o tym przy okazji wprowadzeni wyszukiwania głosowego do wyszukiwarki Google. Będąc w parku chciałem wyszukać kilka informacji o okolicy, miałem jedną rękę zajętą prowadzeniem wózka. Zacząłem dyktować do telefonu co chciałbym znaleźć. Otrzymałem wyniki dokładnie jakie chciałem, ale trzymając telefon przed twarzą i dyktując hasła zwróciłem uwagę innych przychodniów, którzy się za mną oglądali. Na tym polega problem głosowych poleceń, wrażenie gadania do samego siebie jest społecznie uważane jako dziwactwo lub oznaka, że z naszą głową nie wszystko jest w porządku.

1_ixnxp

Nie chodzi z resztą o samo dyktowanie czy inną oralną interakcję z wyszukiwarką czy mobilnym systemem operacyjnym. To samo tyczy się rozmów prowadzonych przez słuchawki z wbudowanym mikrofonem czy słuchawkę bluetooth. Podniesienie ręki do ucha to sygnał społeczny „uwaga, rozmawiam przez telefon, nie ma w tym nic dziwnego” i nawet gdyby faktycznie ktoś gadał do siebie z ręką przy uchu raczej nikt by mu się nie przyglądał. Za to osoby rozmawiające przez telefon, idące sobie jak gdyby nigdy nic przez miasto, z rękami w kieszeniach budzą pewne zainteresowanie, a dla osoby rozmawiającej jest to na swój sposób niezręczne, chociaż nie wszyscy musza się tym przejmować. Tak czy inaczej coś jest na rzeczy – czemu słuchawki bluetooth nigdy się tak naprawdę nie spopularyzowały? Przecież to w teorii bardzo praktyczne rozwiązanie, ale w praktyce wykorzystywane przez nieliczne osoby, których praca naprawdę wymaga bycia w ciągłym kontakcie. Żadna znana mi osobiście osoba nie ma takiej słuchawki „bo jest wygodna”.

Zmierzam do tego, że gadanie do siebie jest w skali społeczeństwa raczej nieakceptowane. I nie chodzi mi o to, żeby udowadniać, że nikt z tego nie korzysta, bo to ewidentnie nieprawda. Raczej o to, że produkty tego typu nie są „cool”, nie zdobywają takiej popularności jak inna elektronika z którą nie wstydzimy się pokazać, choćby zegarek, czy bardziej współcześnie różne gadżety do mierzenia naszej aktywności w ciągu dnia, typu Jawbone UP czy Fitbit. Mówiąc krótko, chociaż wydawanie poleceń głosowych komputerom na filmach science-fiction wygląda fajnie, nie jest to coś co chcemy robić przy ludziach. W samochodzie od biedy tak, w domu być może, chociaż nie ma to wielkiego uzasadnienia, ale nie na ulicy, w restauracji, w pracy itp. czyli tam gdzie de facto spędzamy najwięcej czasu.

google-glass-news1-e1361949927199

Natomiast Google intensywnie lansuje model komunikacji głosowej z urządzeniami, którą sukcesywnie dodaje w kolejnych swoich usługach i urządzeniach. Zaczęło się od urządzeń mobilnych, co ma logiczne uzasadnienie, tam klawiatura ekranowa stanowi największą barierę i całkowite jej ominięcie oszczędza czas i kłopot. Teraz usługa dostępna jest również w wyszukiwarce na duże systemy operacyjne, które mają na stałe podłączoną dużą klawiaturę, przynajmniej większość z nich. To, nawiasem mówiąc, pokazuje, że dzisiejsze urządzenie elektroniczne to przede wszystkim nie specyfikacja procesora i pamięci, ale zestaw czujników jak mikrofon, kamera, łączność 3G, żyroskop czy akcelerometr. Większość komputerów stacjonarnych nie spełnia nawet tych podstawowych w postaci mikrofonu.

Następne będą okulary Glass, które siłą rzeczy będą obsługiwane praktycznie tylko i wyłącznie głosem. Jak mogliśmy się dowiedzieć od osób, które miały już możliwość testować okulary, użytkownik najpierw mówi „ok Glass”, następnie podaje polecenie np. wysłania wiadomości, później dyktuje treść, podaje adresata i wysyła. Po przedyktowaniu użytkownik ma kilka sekund na podejrzenie treści i zaakceptowanie jej, bądź odrzucenie. Poprawianie literówek czy pojedynczych słów przynajmniej na razie nie wchodzi w grę.

SNP_3082137_en_v2

Okulary Google to budzą w ogóle cały szereg wątpliwości, od noszenia ich na twarzy, przez kwestie dotyczące prywatności, na obsłudze kończąc. Nie chcę oceniać tego pomysłu zanim będzie miał szansę trafić na rynek. Uważam, że wiele obaw jest odrobinę przesadzonych, np. dotyczących filmowania wszystkiego i wszędzie. Już dzisiaj są okulary i długopisy z wbudowanymi kamerami szpiegowskimi, którymi można nagrywać wszystko i wszystkich, na dodatek w przeciwieństwie do Google Glass nie kosztują półtora tysiąca dolarów, a najwyżej kilkaset złotych i są znacznie łatwiej dostępne, chociażby przez internet i największy portal aukcyjny. Nikt jakoś z tego powodu nie produkuje artykułów mówiących o tym jakie to naruszenie naszej prywatności. Wiele wskazuje również na to, że nagrywanie za pomocą Glass tak aby nikt się nie zorientował jest trudne… ale dość tej dygresji.

Największym problemem wydaje się dyktowanie okularom wszystkich poleceń, które są z założenia o wiele dziwniejsze i bardziej niezręczne niż zwykła rozmowa przez telefon, a trzeba dyktować niemal wszystko, poprzedzając to hasłem „ok Glass”. Wielu geekom zafascynowanym technologią to może wydawać się fajne, ale mam niemal pewność, że dla większości ludzi, którzy nie chcą szpanować na ulicy, a tylko sprawdzić informację, wysłać wiadomość, włączyć nawigację czy zrobić zdjęcie to takie fajne nie jest. Raczej niezręczne.

voice-recognition-software

W efekcie możliwe są dwie drogi, albo uwarunkowania kulturowe się zmienią i gadanie do siebie stanie się powszechnie akceptowane czy nawet modne, a z czasem, wraz z doskonaleniem się technologii rozpoznawania mowy wszyscy będziemy gadać do urządzeń elektronicznych, bo tak będzie szybciej, łatwiej, bardziej naturalnie. Narodzi się nowe pokolenie pisarzy, którzy będą raczej „dyktowaczami”. Czemu nowe pokolenie? Bo język mówiony różni się znacząco od pisanego. Jestem niemal pewien, że podyktowanie tego artykułu byłoby dla mnie zdecydowanie trudniejsze niż jakakolwiek forma napisania go, również odręcznie, jest to dla mnie zupełnie inny tryb formowania myśli. Przepisanie tekstu jeden do jednego z naturalnej mowy wymagałoby masy poprawek, wyrzucenia zbędnych rzeczy itp. Tak czy inaczej stałbym się dinozaurem w nowej erze dyktowania wszystkiego i wszędzie. Praca w firmach IT będzie wyglądała raczej jak call centre.

Druga droga jest tak, że społeczny opór przed dyktowaniem poleceń nie zmaleje. Wciąż będziemy korzystać z tej technologii w samochodzie, wciąż znajdą się osoby, które nie przejmują się takimi rzeczami i będą nosić Glass na co dzień i dyktować wszystkie polecenia, tak jak dzisiaj można czasem spotkać kogoś ze słuchawką bluetooth w uchu. Będzie to jednak mniejszość i to zdecydowana. Wszystkie produkty opierające się tylko na poleceniach głosowych będą bardzo niszowe. Do czasu aż pojawi się inna technologia, która dyktowanie na głos zastąpi czymś bardziej prywatnym i mniej oczywistym dla obserwatora, jak odczytywanie fal mózgowych użytkownika. Wówczas będziemy dyktować polecenia w myślach, co będzie społecznie całkowicie obojętne. Tym sposobem dyktowanie na głos stanie się ślepą technologicznie uliczką, która nigdy nie zyskała popularności.

14voice02-650

Nie jestem w stanie przewidzieć jak potoczy się rozwój technologii, być może nikt nie jest. Mam jednak wątpliwości czy Google uda się przełamać społeczny opór, który jak dotąd nikomu nie udało się przełamać, nawet w zwykłej rozmowie telefonicznej w publicznym miejscu. Co nie znaczy, że technologii rozpoznawania mowy nie warto rozwijać, chociażby do automatycznej transkrypcji nagrań czy innych tego rodzaju zastosowań.

A jakie jest Wasze zdanie? Używacie słuchawek bluetooth? Nie krępujecie się dyktować polecenia do telefonu na ulicy czy w restauracji? Będziecie skłonni używać Glass i innych urządzeń opierających się na rozpoznawaniu mowy? Czy waszym zdaniem to ślepa uliczka, bo i tak zawsze wolicie wyklikać wiadomość na klawiaturze ekranowej, niż ja podyktować?

Źródła grafik w kolejności ich umieszczenia w artykule: fib-r.com, complex.com, roadtovr.com, support.google.com, techcrok.com, thedroidguy.com.