Kicsit messziről indítom a posztot: emlékeztek még a Black & White-ra? Peter Molyneux akkor még frissen gründolt cégének, a Lionhead Studiosnak volt az első játéka. A készülését elég nagy figyelem övezte a kilencvenes évek végén, hiszen ez volt Molyneux első megint független játéka az EA-s rabiga után. Aztán a nagy ígéreteket csak részben váltotta be, de a fejlesztésről a játék készülésekor nyilvános naplót vezettek, ami elég szórakoztató volt. Abban tűnt fel Demis Hassabis neve, akit amolyan programozó csodagyerekként kezeltek. A lenti képen ő a Molyneux-től balra látható ülő figura (fölötte pedig Steve Jackson, a Jackson-Livingstone-féle lapozgatós kalandkönyvek egyik szerzője, de ezt csak érdekességként jegyzem meg).
Hassabis huszonegykét éves volt akkor, de 17 éves kora óta már Molyneux mellett dolgozott, 1998-ban, 22 éves korára pedig már eljutott oda, hogy elszakadt mesterétől, és saját játékgyártó céget alapított. Az Elixir Studios nem volt sikeres cég (két megjelent játéka közül az Evil Genius egész szórakoztató volt, de az is megbukott), és Hassabis igazából csak a cég becsődölése után találta meg azt a területet, amire mindig is hivatott volt: a kognitív idegtudományokat, illetve a mesterségesintelligencia-programozást. Elkezdett komoly tudományos szaklapokban publikálni, aztán 2011-ben MI-startupot alapított DeepMind néven, amit tavaly januárban a Google hopp, 400 millió dollárért meg is vett (igen, az több mint 110 milliárd forint). Akit bővebben érdekel a dolog, itt van Hassabisszal egy jó kis interjú.
De mindez csak előzmény, amiért blogposztot ér a téma, az az, hogy Hassabis a jelek szerint nem tudott teljesen elszakadni a játékoktól: régi Atari 2600-játékokat használt fel egyik új kutatásához. A kutatási területet úgy hívják, hogy deep reinforcement learning, és ötvöz két gépi tanulási módszert: a megerősítéses tanulást és a DeepMind specialitását, a mélytanulást. A megerősítéses tanulás elve nagy vonalakban annyi, hogy a gép próbálkozik megbirkózni egy feladattal, aztán a kapott eredmény alapján finomítja a további próbálkozásait, és így egyre ügyesebb lesz. Ha például egy videojátékban korán elbukik egy ponton, akkor legközelebb mást csinál; ha továbbjut, akkor meg megjegyzi, hogy mit csinált jól.
Videojátékoknál maradva, azért nehéz feladat játékokra tanuló algoritmusokat írni, mert sokszor csak jelentős idő elteltével derül ki, hogy a választott stratégia sikeres volt vagy kudarc (pl. az, hogy a Space Invadersben egyre lejjebb jönnek az űrlények, és ha nem ritkítjuk őket módszeresen, akkor végül leérnek az űrhajóhoz, ilyen elem). Itt jön képbe a mélytanulás, aminek lényege az, hogy a különféle típusú adatokat több rétegben, több szinten is feldolgozzák. Képalkotásban vannak ennek nagy eredményei, például egy állatot vizsgálva egy mélytanuló algoritmus felismerheti, hogy az állat gerinces, aztán azt, hogy emlős, aztán azt, hogy macskaféle, aztán azt, hogy pöttyös macskaféle, aztán azt, hogy leopárd. Persze ez egy nagyon-nagyon egyszerű példa, a mélytanulás-kutatásokban óriási adattömegeken dolgoznak sokkal bonyolultabb algoritmusok, rengeteg adatot rendszereznek hasonló módon.
A deep reinforcement learning (megerősítéses mélytanulás) tehát a fentieket ötvözi, és a videojátékok esetében az is nehézséget jelentett, hogy "adat" csak az volt, amit a játékos is lát a képernyőn. Ennek fényében is lenyűgöző, hogy Hassabis csapata készített egy olyan általános architektúrát és tanulási algoritmust, amit több Atari-játékra ráeresztve elérték, hogy az algoritmus végül jobban játszott, mint arra az ember valaha képes lehet.
Hét játékon próbálták ki ugyanazt a rendszert, és előzetesen semmi információt nem adtak az algoritmusnak. A rendszer persze eleinte mindig bénázott, aztán ahogy tanult, egyre ügyesebb lett, végül három játékban (Breakout, Pong, Enduro) felülmúlta az emberi teljesítőképességet, egyben (Beam Rider) pedig közel úgy teljesített, mint egy emberi játékos. Ez azt jelenti, hogy maradt három játék (Q*bert, Seaquest, Space Invaders), amiben az algoritmus nem teljesített fényesen, és az is igaz, hogy az Atari 2600 játékai nem a legbonyolultabbak, de az MI-kutatásban a publikáció így is óriási eredménynek számít (a kulcsszavak: ugyanazt az algoritmust használták, és mindig nulláról kellett tanulnia, előzetes információk nélkül).
Csodálatos korban élünk, hölgyeim és uraim.
Utolsó kommentek