Sztuczna Inteligencja

To niesamowite jak SI od Google samodzielnie uczy się nowych rzeczy

Marcin Hołowacz
To niesamowite jak SI od Google samodzielnie uczy się nowych rzeczy
Reklama

Mamy coraz lepsze metody na trenowanie programów do… wygrywania gier i z pewnością nie tylko gier.

Na The Guardian możemy przeczytać nagłówek “It's able to create knowledge itself': Google unveils AI that learns on its own”, z kolei na The Verge jest to “DeepMind’s Go-playing AI doesn’t need human help to beat us anymore”, a publikacja na oficjalnym blogu DeepMind ujmuje to w mniej ekscytujący sposób, czyli “AlphaGo Zero: Learning from scratch”, chociaż nadal brzmi to całkiem ciekawie.

Reklama

Na wspomnianym wyżej blogu należącym do DeepMind możemy przeczytać mniej więcej taki wstęp:

Badania nad sztuczną inteligencją doczekały się szybkich postępów w szerokiej gamie dziedzin, zaczynając od rozpoznawania mowy i klasyfikowania obrazów, a kończąc na genomice i odkrywaniu nowych leków. W wielu przypadkach są to specjalistyczne systemy, które wykorzystują ogromne ilości ludzkiej wiedzy oraz danych. Jednak w przypadku niektórych problemów, ta ludzka wiedza może być zbyt droga, zbyt niepewna, albo zwyczajnie niedostępna. W rezultacie, długoterminowym celem badań nad SI jest obejście tego kroku, tym samym tworząc algorytm, który osiąga ponadludzką wydajność w najbardziej wymagających dziedzinach i to bez pomocy człowieka (w postaci danych wejściowych będących np. ludzką wiedzą). W naszej najnowszej publikacji znajdującej się w Nature, demonstrujemy istotny krok prowadzący do tego celu. Źródło.

David Silver wyjaśnia

Następnie David Silver, lead researcher for AlphaGo dumnie oznajmia, że AlphaGo Zero to najlepszy na świecie program grający w Go. Ten właśnie program pokonał wszystkie poprzednie wersje AlphaGo, a będąc bardziej konkretnym, pokonał również wersję AlphaGo, która dokonała czegoś wyjątkowego, tzn. wygrała z ludzkim mistrzem świata w Go, czyli z Lee Sedolem.

Jeszcze raz. Człowiek jest mistrzem świata w Go. Jednak powstaje program, który pokonuje tego ludzkiego mistrza świata w Go. Tym programem jest oczywiście AlphaGo. Następnie, w wyniku ewolucji tego programu, powstaje wersja o nazwie AlphaGo Zero i ta właśnie wersja pokonuje swojego poprzednika w miażdżący sposób, czyli 100 wygranych gier do 0.

AlphaGo Zero

Tym razem jest odrobinę inaczej. Jak tłumaczy David Silver, wszystkie poprzednie wersje zaczynały od danych w postaci ludzkiej wiedzy, czyli mówiąc obrazowo: „hej komputerze, ludzki ekspert w takiej sytuacji wykonuje taki ruch, natomiast w innej sytuacji, wykonuje inny ruch, o taki”. Wiadomo, że najlepiej uczyć się od najlepszych, więc taka forma nauki brzmi rozsądnie, ale… nie bez powodu na samym początku we wpisie na blogu DeepMind możemy przeczytać, że w dłuższym terminie wszystkim zależy na tworzeniu programów, które potrafią się uczyć bez tego typu zapożyczonej wiedzy od mistrzów.

Właśnie dlatego AlphaGo Zero uczy się poprzez tzw. self-play, czyli gra samo ze sobą. Nikt nie podaje mu na tacy żadnych technik stosowanych przez ludzi. Zamiast tego, program poznaje jedynie zasady gry, a później do wszystkiego dochodzi samodzielnie. Stawiane są małe kroczki, czyli po każdej partyjce SI i jego partner treningowy (również SI) stają się odrobinę lepsi. To dobrze, bo nauka przebiega z idealnie dopasowanym przeciwnikiem. Dajcie im wystarczająco dużo czasu, a „chłopaki” nauczą się grać lepiej od ludzkiego mistrza, a nawet od nieludzkiego mistrza, czyli np. AlphaGo (bo przecież AlphaGo Zero niszczy swoją poprzednią wersję i nie daje jej żadnych szans).

Mogę się mylić, ale wydaje mi się, że jest to identyczne podejście jak w przypadku bota stworzonego przez OpenAI. Wspomniany bot wygrał w grę Dota 2 z zawodnikiem (ludzkim) o pseudonimie Dendi. Jest to wielki wyczyn, ponieważ sam zawodnik uchodzi za jednego z najlepszych, natomiast sama gra jest bardzo złożona.

Reklama

Czyli wygląda na to, że ta metoda okazuje się być niezwykle skuteczna, a jakby tego było mało, AlphaGo Zero ma mniejsze zapotrzebowanie na moc obliczeniową. Super, ciekawe jakie będą następne sukcesy w tym zakresie?

Źródło 1, 2, 3

Reklama

Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu

Reklama