llc: run
15

Zobacz jak sztuczna inteligencja samodzielnie uczy się chodzić

Wyczytałem, że cielak antylopy gnu może chodzić już kilka minut po swoich narodzinach. Pomyślałem sobie, że to imponujące. Później zacząłem oglądać dwa przykłady, na których sztuczna inteligencja uczy się tego, w jaki sposób może dostać się z punktu A do punktu B. Jej narzędziem jest „ciało”, które dostaje od człowieka i którym musi operować w symulowanym świecie (trochę jak Matrix, ale to tylko moje skojarzenie…). Pomyślałem sobie, że to fajne i zabawne… z czasem było podobnie jak z antylopą gnu, tzn. w końcu doszedłem to wniosku, że to imponujące.

DeepMind

Proces powstawania zdolności do poruszania się w bogatym środowisku, oto moja próba przetłumaczenia tytułu pracy pochodzącej od DeepMind, czyli „Emergence of Locomotion Behaviours in Rich Environments”. Gdybym to ja mógł coś zaproponować, byłoby to raczej „zabawne filmiki ze śmiesznym ludzikiem, który uczy się chodzić”, ale… może to i lepiej, że nikt mnie nie pytał o tytuł.

We wstępie możemy wyczytywać, że uczenie przez wzmacnianie (ang. reinforcement learning) z zasady pozwala na naukę złożonych zachowań, poprzez wykorzystanie prostych sygnałów będących nagrodą. Jednak w praktyce dość powszechne ma być staranne projektowanie funkcji nagrody, tak aby zachęcać do osiągania określonego rodzaju rozwiązania, albo do pozyskiwania go z danych demonstracyjnych. W tym wypadku ludzie z DeepMind obrali za cel zdolność do poruszania się, a nagroda była powiązana z postępami w przemieszczaniu się do przodu.

Bogate środowisko, które zostało wypełnione różnymi przeszkodami i terenem o różnej charakterystyce, pomaga w promowaniu nauki złożonych ruchów. Agent sam nauczył się takich rzeczy jak bieganie, skakanie, czy kucanie. Został jedynie wyposażony w wirtualne czujniki, informujące go  o sytuacji, np. czy aktualnie model jego ciała stoi w pionie.

Fajnie, że tak sobie z tym wszystkim radzi. To dziwne widzieć jak symulowana postać porusza się w bardzo nietypowy sposób, ponieważ okazało się to być dobrą metodą (nam nie przyszłoby do głowy, żeby dziko wymachiwać ręką dla uzyskania lepszej równowagi), ale z drugiej strony to imponujące, że agent doszedł do tego wszystkiego samodzielnie i często radzi sobie nawet w bardzo niesprzyjających warunkach.

The DeepLoco project

The DeepLoco project jest realizowany przez Xue Bin Peng, Glen Berseth oraz Michiel van de Panne z University of British Columbia, a także przez KangKang Yin z National University of Singapore. To seria eksperymentów wykorzystujących uczenie pogłębione (deep learning) w celu… nauki poruszania się w symulowanym środowisku. Mamy tu do czynienia z tzw. „low-level controllers”, które odpowiadają za uzyskanie podstawowego chodu oraz „high-level controllers”, które podejmują decyzje oparte na otoczeniu, w którym znajduje się agent. Wszystko zostało wytrenowane za pośrednictwem uczenia pogłębionego, a efekty są… całkiem fajne:

Truman Show w wirtualnym świecie

Szkoda, że nie możemy zobaczyć czegoś na podobnej zasadzie, ale w zdecydowanie bardziej zaawansowanej formie. Pomyślałem sobie, że można by stworzyć coś na wzór Truman Show, ale byłaby to jedna wielka symulacja, w której agent uczy się… życia w świecie takim jaki mamy np. w grach z serii GTA.

Źródło 1, 2, 3, 4

  • Jarek

    Od tego miejsca https://youtu.be/hx_bgoTF7bs?t=91 wygląda jakbym wracał z imprezy :D

    • lol

    • Drzwi Percepcji

      Śmiechłem ;d

    • Szymon L

      Symulator pijanego mistrza.

  • GloomyFringe

    Nie no kozackie :D

  • mall

    To może być też oczywiście zwykła animacja, a nie żadne dokumentowanie postępów nauki AI. Nieweryfikowalne, co nie?

    • DeepMind pewnie wrzuci paper na arxiv gdzie będziesz miał wszystko wytłumaczone ;)

    • Kamil Ro. Dzióbek

      Wątpie. DeepMind to Google. Kiedyś się chwalili, że mają AI grającą w grę GO. Szukałem papierów by powtórzyć ich eksperyment, nie znalazłem, nikt nie znalazł. Skoro nie można tego powtórzyć to dla nauki to ma wartość zerową.

    • https://gogameguru.com/i/2016/03/deepmind-mastering-go.pdf
      Tylko nie spodziewaj się nigdzie całego kodu. Nikt tego nie publikuje. Plus raczej niemiałbyś odpowiedniego hardware ;)

    • Kamil Ro. Dzióbek

      To co wrzuciłeś to są kompletne śmieci.

    • Ponieważ? Albo czego się spodziewasz, kompletnego kodu do odpalenia na swoim kompie?

    • Kamil Ro. Dzióbek

      Po Google nie spodziewam się niczego poza śmieciami i myleniem tropów.
      Tak się przyjęło w nauce, że eksperyment ma być powtarzalny. Informacje które dało Google na to nie pozwalają.

    • Czyli, że co. Tak naprawdę nie wygrywają w go? Nie rozumiem dlaczego ot tak mieliby upubliczniać kod i rozwiązania skoro wpakowali w to kupę kasy i daje im to przewagę nad konkurencją. Pewnie za kilka lat to zrobią ale wtedy będą już bardziej do przodu.

  • stark2991

    Przypomina mi to eksperymenty z algorytmem genetycznym, które widziałem na YT – tam też kupka figur w końcu „nauczyła” się chodzić czy skakać. Tutaj jest po prostu zaawansowana wersja tego samego

  • Motion Capture z weselnych zabaw