Mamy coraz lepsze metody na trenowanie programów do… wygrywania gier i z pewnością nie tylko gier.
To niesamowite jak SI od Google samodzielnie uczy się nowych rzeczy
Na The Guardian możemy przeczytać nagłówek “It's able to create knowledge itself': Google unveils AI that learns on its own”, z kolei na The Verge jest to “DeepMind’s Go-playing AI doesn’t need human help to beat us anymore”, a publikacja na oficjalnym blogu DeepMind ujmuje to w mniej ekscytujący sposób, czyli “AlphaGo Zero: Learning from scratch”, chociaż nadal brzmi to całkiem ciekawie.
Na wspomnianym wyżej blogu należącym do DeepMind możemy przeczytać mniej więcej taki wstęp:
Badania nad sztuczną inteligencją doczekały się szybkich postępów w szerokiej gamie dziedzin, zaczynając od rozpoznawania mowy i klasyfikowania obrazów, a kończąc na genomice i odkrywaniu nowych leków. W wielu przypadkach są to specjalistyczne systemy, które wykorzystują ogromne ilości ludzkiej wiedzy oraz danych. Jednak w przypadku niektórych problemów, ta ludzka wiedza może być zbyt droga, zbyt niepewna, albo zwyczajnie niedostępna. W rezultacie, długoterminowym celem badań nad SI jest obejście tego kroku, tym samym tworząc algorytm, który osiąga ponadludzką wydajność w najbardziej wymagających dziedzinach i to bez pomocy człowieka (w postaci danych wejściowych będących np. ludzką wiedzą). W naszej najnowszej publikacji znajdującej się w Nature, demonstrujemy istotny krok prowadzący do tego celu. Źródło.
David Silver wyjaśnia
Następnie David Silver, lead researcher for AlphaGo dumnie oznajmia, że AlphaGo Zero to najlepszy na świecie program grający w Go. Ten właśnie program pokonał wszystkie poprzednie wersje AlphaGo, a będąc bardziej konkretnym, pokonał również wersję AlphaGo, która dokonała czegoś wyjątkowego, tzn. wygrała z ludzkim mistrzem świata w Go, czyli z Lee Sedolem.
Jeszcze raz. Człowiek jest mistrzem świata w Go. Jednak powstaje program, który pokonuje tego ludzkiego mistrza świata w Go. Tym programem jest oczywiście AlphaGo. Następnie, w wyniku ewolucji tego programu, powstaje wersja o nazwie AlphaGo Zero i ta właśnie wersja pokonuje swojego poprzednika w miażdżący sposób, czyli 100 wygranych gier do 0.
AlphaGo Zero
Tym razem jest odrobinę inaczej. Jak tłumaczy David Silver, wszystkie poprzednie wersje zaczynały od danych w postaci ludzkiej wiedzy, czyli mówiąc obrazowo: „hej komputerze, ludzki ekspert w takiej sytuacji wykonuje taki ruch, natomiast w innej sytuacji, wykonuje inny ruch, o taki”. Wiadomo, że najlepiej uczyć się od najlepszych, więc taka forma nauki brzmi rozsądnie, ale… nie bez powodu na samym początku we wpisie na blogu DeepMind możemy przeczytać, że w dłuższym terminie wszystkim zależy na tworzeniu programów, które potrafią się uczyć bez tego typu zapożyczonej wiedzy od mistrzów.
Właśnie dlatego AlphaGo Zero uczy się poprzez tzw. self-play, czyli gra samo ze sobą. Nikt nie podaje mu na tacy żadnych technik stosowanych przez ludzi. Zamiast tego, program poznaje jedynie zasady gry, a później do wszystkiego dochodzi samodzielnie. Stawiane są małe kroczki, czyli po każdej partyjce SI i jego partner treningowy (również SI) stają się odrobinę lepsi. To dobrze, bo nauka przebiega z idealnie dopasowanym przeciwnikiem. Dajcie im wystarczająco dużo czasu, a „chłopaki” nauczą się grać lepiej od ludzkiego mistrza, a nawet od nieludzkiego mistrza, czyli np. AlphaGo (bo przecież AlphaGo Zero niszczy swoją poprzednią wersję i nie daje jej żadnych szans).
Mogę się mylić, ale wydaje mi się, że jest to identyczne podejście jak w przypadku bota stworzonego przez OpenAI. Wspomniany bot wygrał w grę Dota 2 z zawodnikiem (ludzkim) o pseudonimie Dendi. Jest to wielki wyczyn, ponieważ sam zawodnik uchodzi za jednego z najlepszych, natomiast sama gra jest bardzo złożona.
Czyli wygląda na to, że ta metoda okazuje się być niezwykle skuteczna, a jakby tego było mało, AlphaGo Zero ma mniejsze zapotrzebowanie na moc obliczeniową. Super, ciekawe jakie będą następne sukcesy w tym zakresie?
Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu