28

Nie uwierzysz jak głęboko sięga sztuczna inteligencja Google

A sięga naprawdę bardzo głęboko. Doskonale nam wiadomo, że Google żyje z pozyskiwania i oferowania następnie informacji, ale rzadko się zastanawiamy, w jaki sposób do nich dociera. W przypadku Map Google, czy też Street View, są to specjalne samochody, które robią zdjęcia w 360 stopniach, a następnie maszyna analizuje to, co zostało uchwycone. Dopiero teraz zaczyna się zabawa.

Wśród zdjęć zrobionych za pomocą samochodów uczestniczących w zbieraniu informacji dla Street View można znaleźć sporo ciekawych rzeczy – szyldy sklepowe, nazwy ulic, znaki drogowe – wszystko to powoduje, że Google dostarcza nam coraz lepsze dane na temat miejsc, w które chcemy się udać. Jest z tym jeden problem – o ile zwykły tekst jest dla nas oczywisty i zrozumiały, dla maszyny już nie musi taki być. Ta musi się nauczyć, co oznaczają symbole, za pomocą których się porozumiewamy i przetworzyć to następnie na przydatne dla nas dane w usłudze.

Wykorzystanie sieci neuronowych oraz machine learningu jest tutaj kluczowe. Wyobraźcie sobie armię pracowników Google, którzy jeżdżą od ulicy do ulicy, robią zdjęcia, a następnie sami, na własną rękę analizują to, co zostało uchwycone na zdjęciach. Każdy znak drogowy, każdy szyld, każdą tabliczkę z nazwą ulicy. Należy również przeanalizować każdy układ dróg na skrzyżowaniu, obowiązujące zasady podstawowych manewrów. Ludzie potrzebowaliby na to mnóstwo czasu – dobrze wyuczona w tym kierunku maszyna zrobi to o wiele szybciej i… taniej. Wystarczy, że damy programowi wolną rękę, a ten będzie nam co jakiś czas zgłaszał efekty swoich działań. Możemy go poprawić, a na podstawie poprawnych predykcji i nieznacznych modyfikacji udoskonali się na tyle, że będzie w stanie ów proces przeprowadzać sam – bez udziału kogokolwiek innego.

Google

Efekty działania maszyny Google można znaleźć we Francji

Gigant korzysta ze zdjęć zgromadzonych w Street View i poddaje je obróbce maszynie, która analizuje wszystko, co zostało dostrzeżone okiem kamery. Już teraz Google może się pochwalić 85 – procentową skutecznością w odczytywaniu nazw ulic. Błędy wynikają albo z niedokładnych zdjęć, albo ze zbyt skomplikowanego układu arterii miejskich, które wykraczają (na razie) poza możliwości maszyny. Program korzysta z czegoś na wzór OCR – techniki odczytywania tekstu z obrazów na wzór tego, co możemy znaleźć w programach do skanowania książek i eksportowania edytowalnego tekstu. Co ciekawe, maszyna Google jest odporna na zmianę czcionki, czy też rozmiaru.

Google

Ale to przecież nie wszystko – maszyny oparte na sieciach neuronowych, machine learningu są w stanie również nazywać obiekty na ekranie. Filtr w Grafice Google opiera się na działaniu właśnie takiego mechanizmu – spośród wszystkich zindeksowanych stron wykrywane są takie grafiki, które mogą zawierać niewłaściwe dla młodszego odbiorcy treści. I tego nie robi człowiek, lecz maszyna – nie opierając się na tagach, nie zbaczając na tematykę strony. Tylko na to, co dzieje się na danym obrazku.

Źródło: Blog Google

  • Marx

    a trenujemy my poprzez wpisywanie captcha…

  • A jednak uwierzyłem. Nie zgadliście.

  • Obserwator_911

    „Nie uwierzysz jak głęboko sięga sztuczna inteligencja Google”
    Używając przenośni: zagląda do d.. ? ;)
    Wow, OCR – odkrycie na miarę XXI wieku.

    • Ale to nie jest tylko OCR.

    • lconer

      Ale z artykulu nic wiecej nie wynika

    • Oł-si-er

      Owszem, jest. Chyba nie masz pojęcia jak rozbudowany jest zestaw klasyfikatorów zwanych potocznie jako OCR ;) One same w sobie wykonują masę przekształceń liniowych (algebra liniowa się kłania :P i to na poziomie szkoły podstawowej… no okej, przy aktualnym poziomie, to szkoły średniej :P ) i dzięki temu mogą dopasowywać te patterny do obiektów istniejących w zbiorze danych.

  • misteriu11

    Ktoś czyta te artykuły przed dodaniem? Ostatnimi czasy jak czytam antyweb to mam uczucie, że jest on robiony na ilość, a nie jakość.

  • xnxx

    Mechanizm googla widzi co najwyżej miejsce gdzie znajduje się obiekt z którego można odczytać text, jeśli jest wyraźny działa zwykłe OCR.
    Cała magia lub oszustwo zależy z której strony spojrzymy zaczyna się w momencie gdy obrazek pojawia się w formie capthy na wielu stronach i jest rozwiązywany miliony jeśli nie miliardy razy w ciągu dnia przez internautów.
    No i nie ma żadnego uczenia maszynowego specjalnej wersji OCR są po prostu ludzie męczący się przy przepisywaniu niewyraźnego textu i o tym powinien być artykuł.

    • Jeżeli maszyna ma problem z rozczytaniem tekstu lub jest wysokie ryzyko błędu, wtedy ląduje do captchy. A wtedy maszyna się uczy.

    • xnxx

      A gdzie tu nauka jak każdy text musi być zweryfikowany przez człowieka ?
      Druga sprawa to koszt tego który przerzucany jest na internautę który nawet nie musi tych map używać coś jak przymusowy czyn społeczny…

    • Przemysław Rumik

      @disqus_P5uerQxbYx:disqus w tym, że taka próbka trafia później do zbioru trenującego albo weryfikującego.
      OCR to kilka klasyfikatorów (np. na sieciach neuronowych) i każdy z nich można polepszyć trenując go na dodatkowych danych (chociaż można przeuczyć). I tutaj jak klasyfikator sobie nie radzi to ludzie klasyfikują, ale później takiej próbki można użyć do kolejnej nauki i przez to cały model staje się lepszy i bardziej generyczny.

    • Piotr Potulski

      Dorzucanie danych do zbioru treningowego nie powoduje „przeuczenia”. Wręcz przeciwnie – niewielka ilość ideałów i wysoka „pojemność” klasyfikatora zwiększa ryzyko overfittingu – czyli posługując się jakąś tam analogią do ludzkiego uczenia – wykucia na blachę materiału bez jakiejkolwiek refleksji.

    • Przemysław Rumik

      @piotrpotulski:disqus czyli overfitting, przeuczenie. Klasyfikator uczy się na pamięć. Jednak w Google pracują ludzie, którzy dość dobrze znają się na machine learningu i raczej dbają by nie było overfittingu.

    • Piotr Potulski

      Tak zakładam – jedynie chciałem zwrócić uwagę, że im więcej danych tym mniejsze prawdopodobieństwo przeuczenia.

    • Piotr Potulski

      Nie każdy – kiedy uczyłeś się czytać, to rodzice i nauczyciele nakarmili twój mózg zestawem obrazów i opisów – to jest literka a, b, c… Na podstawie tych przykładów twój mózg utworzył sobie bardziej lub mniej prawidłowe uogólnienia, pozwalające ci później bez problemu rozróżniać litery pisane krojami pisma, których wcześniej nie widziałeś. Z uczeniem maszynowym jest identycznie – captcha pozwala na dostarczenie przykładów, które sieć neuronowa uogólnia do postaci zestawu funkcji matematycznych. Następnie używa się tych funkcji by odpowiedzieć na pytanie czy analizowany obrazek to literka „a”.

    • xnxx

      Jest identycznie ale jest tez różnica miedzy nauczeniem algorytmy a ciągłym jego uczeniem. Captha rozwiązywana jest miliardy razy wiec pojedynczy obrazek został zweryfikowany co najmniej kilkakrotnie przez człowieka.
      Druga sprawa czemu google zmusza do udoskonalania swoich map, algorytmów ludzi którzy tego nie chcą?

    • Piotr Potulski

      Od dłuższego czasu Google nie stosuje captcha opartego na obrazkach. Z jednej strony zgromadzono wystarczająco dużo przykładów i dodawanie kolejnych nie powoduje wzrostu jakości uczenia, z drugiej rozwiązywanie takich obrazkowych tekstów stało się dla komputera dość banalne.

    • xnxx

      Tabliczki z nazwani ulic, sklepów itp nadal się zdarzają. Teraz algorytm „uczy się” rozpoznawać sklepy, domy stacje benzynowe, znaki drogowe, samochody. Pewnie niedługo usłyszymy jak to google potrafi sam z siebie bez niczyjej pomocy rozpoznawać te obiekty…

    • Piotr Potulski

      To z czym ostatnio się spotykam, to captcha polegająca na kliknięciu „I’m not a robot”. Żeby nauczyć AI klasyfikacji czegokolwiek potrzebujesz danych z ideałami czyli w przypadku komputerowego widzenia – obrazki wraz z tagami określającymi co one oznaczają. Często właśnie zebranie tych danych jest najtrudniejszym elementem projektu, dlatego tam gdzie trzeba pozyskać te dane od ludzi, tworzy się różnego rodzaju przynęty takie jak captcha, czy np. możliwość wrzucania zdjęć z tagami. Nie zmienia to faktu, że rozpoznawanie zawartości obrazka, czy czytanie tego tekstu jest finalnie realizowane przez wyuczony model AI, a nie przez zatrudnienie do tego użytkowników, chociaż oczywiście pomogli oni stworzyć zestaw danych treningowych.

    • xnxx

      To co będzie w capthy zależy od kilku czynników min. przeglądarki, tego czy jesteś zalogowany do konta googla czy tego ze używasz androida.
      Ja nie korzystam zbyt wiele z ich usług androida nie posiadam chrome nie lubię i niestety zawsze mam capthe która trzeba rozwiązać tak pewnie kara.

    • Bart

      Korzystając ze zdjęć google (tam gdzie mozesz przechowywać swoje fotografie), możesz wyszukać z zaskakującą skutecznością zdjęcia po wpisanej frazie np. „kot, dom, ludzie, plaza”. Te nie trafiają do capthy.

  • Ongiś

    Mam dla was HINTA…po polsku machine learning to „uczenie maszynowe”. Termin dość popularny i stosowany częściej w naszym kraju w wersji polskiej niż angielskiej. Jak będziecie mieli kolejne problemy z przetłumaczeniem czegoś na język ojczysty to walcie ja kw dym ;)

  • Smutny czytelnik

    Jest mi wstyd.
    Omijam artykuły pana Szczęsnego szerokim łukiem. A tu znów głupio dałem się podejść. I znów okazało się że to śmieć o niczym, z chwytliwym tytułem, produkowany taśmowo (jak reszta) przez tego młodzieńca…

    Pannie Marczak zrób Pan coś z tym! Tego się naprawdę nie da czytać! Ogranicz Pan mu liczbę artykułów do 1/4 Może chociaż to jakoś wpłynie na jakość?? Bo na razie to ilościowy śmietnik.(I po komentarzach widać że to nie tylko moje zdanie)

    A jak nie pomoże, to wywalić na zbitą buzię.
    Niszczycie sobie ciężko wypracowaną renomę. :(

  • El_Chupacabra

    Masz rację – nie wierzę… że można napisać taki shit i opublikować

  • „Nie uwierzysz jak głęboko sięga sztuczna inteligencja Google”
    Uwierzyłem.

  • Piotr Potulski

    Po co pisać artykuły na temat o którym nie ma się zielonego pojęcia?

  • Sławek Krynicki

    Może macie jakieś artykuły w j.polskim na temat splotowych sn?