użytkownik smartfona zdjecie
13

Rynek IT coraz bardziej zaczyna przypominać powieści science-fiction

Sztuczna inteligencja wkracza w nasze życia ukradkiem. Po cichutku i kuchennymi drzwiami, stopniowo zaczyna przenikać naszą codzienną rzeczywistość, bynajmniej nie ograniczając się do jej technicznych aspektów. Czasami jednak pojawiają się spektakularne i efektowne pomysły na wykorzystanie sztucznej inteligencji. Coś co wydaje się ziszczeniem mokrych snów zagorzałych miłośników Science Fiction.

Zanim przejdziemy do konkretów, warto w paru zdaniach pochylić się nad definicją Sztucznej  Inteligencji. Otóż proste, oparte na intuicji zrozumienie znaczenia AI (Artificial Inteligence) prowadzi do tego, że do worka oznaczonego jako sztuczna inteligencja, wrzucamy wszystko jak leci. Nie bez wydatnej pomocy marketingowców, przyjęło się nazywanie inteligentnym wszystkiego, co w jakikolwiek sposób jest zautomatyzowane. Rolety zamykające się po zmroku, wycieraczki uruchamiajace się w czasie deszczu, nie zdziwiłbym się, gdyby niedługo ktoś nie zaczął się rozwodzić nad inteligencją elektrycznego czajnika.

Tymczasem inteligencja, nie tylko ta sztuczna, to coś znacznie więcej niż prosta reakcja na bodźce.

Sztuczna inteligencja (SI, ang. artificial intelligence, AI) – dziedzina wiedzy obejmująca logikę rozmytąobliczenia ewolucyjnesieci neuronowesztuczne życie i robotykę.

Wybaczcie, ale moje wypaczone poczucie humoru nie pozwoliło mi pominąć tej, jakże prostej i jasnej definicji, prosto z rodzimej Wikipedii. Żarty jednak na bok, skierujmy się do anglojęzycznej wersji internetowej encyklopedii.

Sztuczna inteligencja to inteligencja wykazywana przez maszyny. Inteligencja ta przejawia się w analizowaniu otoczenia (funkcje kognitywne) i odpowiednim dostosowywaniu swoich działań tak, aby zmaksymalizować szansę na osiągnięcie celu. Upraszczając zagadnienie, żeby maszyna lub program można było nazwać inteligentnym, musi umieć się uczyć i rozwiązywać napotykane problemy.

Microsoft i inwalidzi

Microsoft z osobami upośledzonymi (ruchowo, słuchowo czy wzrokowo) zawsze miał pod górkę. W czasach kiedy firmą rządzili bezwzględni księgowi, szkoda było marnować zasobów na ułatwianie życia tak niewielkiej grupie klientów. Najlepiej widać było to na tle Apple, które od początku, zarówno w OSX jak i w iOSie bardzo solidnie i konsekwentnie implementowało swoje odpowiedniki narratora oraz lupy. Jeszcze parę lat temu, mimo ogromnej różnicy w cenie urządzeń, rodzimy PFRON nie miał żadnych problemów z dofinansowywaniem iPhonów i iMaców, ponieważ zarówno duży jak i mobilny Windows zaledwie raczkowały w tej dziedzinie.

Tutaj widać jak bardzo Microsoft się zmienia. Z każdą kolejną iteracją Windowsa, narzędzia dla niepełnosprawnych są coraz lepsze i skuteczniejsze. Świetnym przykładem jest tu narrator, czyli lektor opisujący zawartość ekranu ślepym i niedowidzącym. Możliwości najnowszych beta wersji tego programu znacznie wykraczają poza proste odczytywanie tekstu.

Zobacz też: Jakie dobre filmy przygodowe obejrzeć?

Dzięki uczeniu maszynowemu, algorytmy potrafią rozpoznać i „opowiedzieć” zawartość obrazków. Żeby zrozumieć jak bardzo rewolucyjna jest to funkcja, wystarczy wyobrazić sobie osobę kompletnie ślepą, dla której obrazki (które w przeróżnej postaci silnie zdominowały współczesną komunikację) dotychczas po prostu nie istniały.

To jednak dopiero przedsmak przełomu jaki zapowiada program będący bohaterem tego wpisu!

Seeing AI, bo o nim mowa, to aplikacja dostępna na razie wyłącznie na iOS, tylko w USA. Aplikacja ta, wykorzystując kamerę w telefonie, analizuje w czasie rzeczywistym (w dużej części lokalnie) i za pomocą głosu opisuje obserwowaną przez sensor rzeczywistość.

Wystarczy, że niewidzący inwalida skieruje do przodu kamerę iPhona, a przez słuchawki otrzyma szereg głosowych informacji na temat świata przed nim. Brzmi fantastycznie? Poczekajcie na szczegóły – dzięki zebraniu w jednym miejscu całej masy przeróżnych „inteligentnych” algorytmów możliwości programu chwilami zapierają dech w piersi.

Już na wczesnym etapie beta, aplikacja potrafi bardzo wiele. Zacznijmy od najprostszych scenariuszy:

Oprogramowanie OCR (optical character recognition) wszyscy znacie. Czytanie znaków, tabliczek, menu i wszelkich innych informacji tekstowych dostępne jest już dość dawno w wielu programach (w czasie rzeczywistym pracuje np. Tłumacz od Microsoftu). Konia z rzędem jednak temu, kto wskaże program robiący to za pomocą jedynie procesora telefonu, lokalnie i bez dostępu do Internetu? Główną zaletą takiego rozwiązania jest szybkość – jak widać na poniższym filmiku wszystko odbywa się niemal natychmiastowo.

Nieco bardziej skomplikowane jest czytanie dokumentów. Moduł, który się tym zajmuje, mocno wykracza poza możliwości programów OCR. Przede wszystkim wykrywanie krawędzi dokumentu (bądź ich braku). Osoba niewidoma otrzymuje na bieżąco informacje o tym, że trzyma telefon za blisko lub za daleko i w którą stronę przesunąć kamerę, żeby cały dokument znalazł się w obiektywie. Gdy tylko ta sztuka się uda, program zrobi fotkę i zacznie odczytywać zawartość. Świetne jest także rozpoznawanie formatowania. Program nie tylko poinformuje o tym, który akurat nagłówek czy akapit jest odczytywany. Pozwoli także na zaawansowaną nawigację po czytanym dokumencie.

Rozpoznawanie opakowań produktów i czytanie kodów kreskowych, to także żadna nowość. Funkcje te jednak świetnie dopełniają możliwości programu i otwierają przed ślepymi kolejne, dotychczas zamknięte dla nich obszary widzialnej rzeczywistości. Z pomocą przychodzi tutaj sygnał dźwiękowy, który naprowadza inwalidę, ułatwiając odnalezienie kodu kreskowego.

Rozpoznawanie ludzi. To chyba pierwsze sensowne zastosowanie, dla powszechnego dzisiaj rozpoznawania lokalizacji twarzy. Po nakierowaniu aplikacji na człowieka, program od razu powie nam w jakiej odległości i w jakiej części kadru znajduje się twarz fotografowanego. Jeśli otagowaliśmy znajomego na wcześniejszym zdjęciu, program od razu poda nam jego imię. To nie wszystko. Po ustawieniu kadru i zrobieniu zdjęcia dowiemy się dość precyzyjnie ile nasz model ma lat oraz w jakim jest nastroju!

Microsoft zebrał do kupy szereg znanych algorytmów, w tym takie, w których naprawdę bryluje (np. rozpoznawanie wieku), w efekcie czego otrzymujemy sporo, zadziwiająco precyzyjnych informacji. Warto to zresztą samemu sprawdzić – na stronie www.how-old.net można się pobawić wrzucając własne zdjęcia.

Opisywanie scen. To na razie eksperymentalna, w całości oparta na obliczeniach w chmurze funkcja, ale już teraz aplikacja potrafi opisać słowami to co znajduje się w kadrze kamery telefonu. Na razie trudno ocenić jej skuteczność, ale znając osiągnięcia tuzów rynku (firm takich jak Google, Apple czy Microsoft) aplikacja nie powinna mieć problemu z rozróżnieniem psa od kota czy konia. Czy poda nam jego wiek, rasę i nastrój? Zapewne nie na tym etapie, jednak potencjał widać tutaj olbrzymi, szczególnie, że mowa o uczących się algorytmach, które z czasem stają się coraz skuteczniejsze.

Gdyby agregować wszystkie, już istniejące algorytmy, aplikacja mogłaby rozpoznać budynek i na tej podstawie podać jego adres i godziny otwarcia, znajdującej się tam instytucji. Mogłaby rozpoznać pogodę, ocenić zachmurzenie i konfrontując to z danymi pogodowymi ostrzec ślepego przed deszczem. Nawet informacja o porze dnia i o tym, że zapada właśnie zmrok mogłaby dla niedowidzącego okazać się bezcenna.

Bonusem, którego pewnie nie docenią niedowidzący rodacy jest rozpoznawanie zielonych banknotów. W przeciwieństwie do złotówek lub euro, dolary są zarówno tego samego rozmiaru, jak i koloru. Stanowi to zapewne nieustanny powód frustracji u używających głównie gotówki, niedowidzących Amerykanów.

Z kronikarskiego obowiązku, wspomnę na koniec, że Seeing AI potrafi także opisać zawartość obrazów z innych aplikacji. Nie tylko przeczyta poprzez OCR tekst znajdujący się na fotce z Twittera czy Facebooka, opisze także słowami to co się na niej znajduje.

Dwa łyki fantastyki

To na razie wczesna beta, niemniej widać tutaj potęgę sztucznej inteligencji i uczenia maszynowego. Wyobraźcie sobie okulary, coś w rodzaju Google Glass, które szepcąc na ucho noszącemu je niewidomemu, podsuwają informację o otaczającym go świecie. Czy nie ma przed nim słupa, czy innej przeszkody, jaki banknot trzyma w ręce, jaki autobus podjeżdża na przystanek. A nic nie stoi na przeszkodzie, żeby uzupełnić to o kontekstowe informacje z Internetu, oferując w efekcie zadziwiającą wartość dodaną.

Kupujemy chipsy w sklepie. Aplikacja wie jakie to chipsy i zna ich cenę. Rozpoznaje kasę i nas do niej kieruje ostrzegając o kursie kolizyjnym kobiety z wózkiem. Przy płaceniu podpowiada ile mamy pieniędzy w ręku, sprawdza treść paragonu i konfrontuje to z resztą jaką dostajemy od kasjerki. Wracamy z zakupów. Aplikacja zna adres naszego domu, rozpoznaje naszą lokalizację i kieruje na przystanek. Mówi kiedy przyjedzie autobus, czy wsiadamy do właściwego i kiedy mamy wysiąść. Mógłbym mnożyć takie scenariusze godzinami.

Dla normalnego człowieka problemy niepełnosprawnych są dość odległe. Kto sprawny idąc chodnikiem, zwróci choć uwagę na wysoki krawężnik, zmuszający inwalidów na wózkach do objazdów? Kto zdrowy wie jak to jest żyć w całkowitym mroku lub absolutnej ciszy?

Pamiętam męczarnie pewnego znanego blogera od iOSa, który w ramach eksperymentu, cały dzień korzystał z telefonu z wyłączonym ekranem (wielki szacunek za ten wysiłek). A osoby niewidzące mają wyłączony nie tylko ekranik telefonu. Mam wśród bliskich osoby niepełnosprawne i uwierzcie mi, nie macie takiej wyobraźni, która pozwoliłaby wam zrozumieć sytuację osób z silnym upośledzeniem.

To, że duże koncerny płacą swoim działom R&D za rozwój takich rozwiązań, nie ma specjalnego uzasadnienia ekonomicznego. Żaden księgowy koncernu nie zaleci inwestowania w badania, z których efektów skorzysta niewielki margines klientów. Tymczasem to jak wiele w życiu osoby niepełnosprawnej może zmienić technologia jest dla zwykłego, borykającego się z co najwyżej katarem lub opryszczką, zwykłego zjadacza chleba, niepojęte. Proteza dla osoby bez ręki, syntezator dla ślepego, wózek elektryczny dla sparaliżowanego – tutaj nie chodzi o zwykłą poprawę jakości życia, ale o jego zmianę o cały rząd wielkości. O różnicę między wykluczeniem społecznym i życiem na marginesie, a byciem normalną i wartościową częścią społeczeństwa.

There is one more thing:

Zupełnie na koniec, pomyślcie o „cywilnych” zastosowaniach takiej technologii. Gdyby taki sztuczny mózg zamontować w okularkach z wyświetlaczem i podpiąć do Internetu? Gdyby każdy z nas mógł posiadać niewidocznego suflera lub wyświetlającego informacje przed naszymi oczami elektronicznego podpowiadacza?

Zakupy w markecie? Lista zakupów przed oczami wraz ze wskazówkami dotarcia do odpowiednich produktów (oczywiście trasa zoptymalizowana, żebyśmy się nie nałazili vide „problem komiwojażera”). Wrzucamy produkty do koszyka (terminy przydatności okulary sprawdzają dla nas w tle), a system odhacza je na liście. Spotykamy znajomego, okulary podpowiadają nam jego imię, jakich mamy wspólnych znajomych, i że miał niedawno urodziny albo wisi nam kasę. Podchodzimy do regału z wodą mineralną, a program ostrzega, że te 4 zgrzewki zamówimy taniej online i jeszcze nam je wniosą na 4 piętro. Oczywiście także do samochodu na zatłoczonym, marketowym parkingu okulary prowadzą nas jak po sznurku.

Albo w domu. Wrzucamy zakupy do lodówki, której zawartość jest w tym czasie analizowana (braki lądują na proponowanej liście do następnych zakupów). Otwieramy pocztę leżącą na blacie – zwykłe listy zostają w tle przeskanowane i umieszczone w odpowiednim katalogu dysku w chmurze. Rachunki lądują w odpowiednich zestawieniach, dzięki którym mamy pełną analizę naszych stałych opłat. Na podstawie kwot i dat z rachunków system tworzy dla nas proponowane przelewy i przypomina o nich w odpowiednim momencie.

Czas kończyć te fantastyczne dywagacje. Jeśli jednak się zastanowić, wszystkie elementy takiej układanki już istnieją. Bazy danych ludzi, produktów, znajomych, topografia marketów, dane o korkach, pogodzie, analiza wydatków robiona przez banki, nawet do naszych rachunków z Taurona czy gazowni mamy przecież dostęp online. Wystarczy stworzyć urządzenie, które będzie zbierać dane z otaczającego nas świata oraz te online i odpowiednie „inteligentne” algorytmy, które je wszystkie zagregują, przeanalizują i wyciągną przydatne dla nas wnioski. Nawet od strony sprzętowej wszystko mamy już przygotowane.  Google Glass lub Microsft HoloLens – aż się prosi, żeby je w ten sposób wykorzystać.

To chyba nieuniknione, tak będzie wyglądała nasza przyszłość. Jak wiele przyniesie ona korzyści, jak wiele zagrożeń? Czy więcej będzie tych pierwszych, czy drugich? Nie mam pojęcia. Wiem, że na pewno przyjdzie nam żyć w ciekawych czasach.

 

Źródła obrazków: www.microsoft.com