
de Volkskrant Ook bij stratego wint AI nu van ons. Wat betekent dat?
Dit artikel is afkomstig uit de Volkskrant. Elke dag verschijnt een selectie van de beste artikelen uit de kranten en tijdschriften op NU.nl. Daar lees je hier meer over.
Stratego, het bordspel waarbij je de vlag van de tegenstander moet veroveren terwijl je door een slagveld van bommen, spionnen, maarschalken en verkenners ploegt, werd tijdens de Tweede Wereldoorlog bedacht door een Nederlander. Vanaf de jaren zestig werd het wereldwijd populair en nu is dus ook de computer er behendig in, blijkt uit onderzoek gepubliceerd in het wetenschappelijk tijdschrift Science. Voorheen kwam ai (artificial intelligence) nooit verder dan amateurniveau, maar nu heeft 'DeepNash' wereldwijd de derde plaats tussen menselijke topspelers behaald.
Waarom haalden wetenschappers juist dit spel uit de kast om er kunstmatige intelligentie op los te laten
Spelen is een cruciaal onderdeel van leren. Bij baby's begint dat met het oppakken van vormpjes om ze door corresponderende gaten te slaan, en bij kunstmatige intelligentie gaat dat niet heel anders. "We hebben ai ontwikkeld vanuit het idee om menselijke intelligentie te reproduceren", zegt Maryam Tavakol, universitair docent aan de ai-afdeling van de TU Eindhoven. "Het begon met het herkennen van objecten: een auto, een boom, enzovoorts." Doordat kunstmatige intelligentie dit kunstje onder de knie heeft, kun je nu bijvoorbeeld op 'fiets' of 'krant' zoeken in je digitale foto's.
Spellen zijn een goede omgeving om te testen en te leren, omdat je complete controle hebt over de factoren in het spel. Er zijn heldere regels, er is een duidelijk doel. Hoe ingewikkelder een spel, hoe meer factoren je toevoegt waar de ai rekening mee moet houden. "De doorbraak bij ai en spellen zit 'm in de schaalvergroting", zegt Frans Oliehoek, universitair docent intelligente systemen aan de TU Delft die veel onderzoek heeft gedaan naar ai, robotisering en speltheorie.

Mogelijke zetten
In de jaren negentig versloeg de computer de mens voor het eerst in spellen als schaken en dammen. "Dit zijn perfect information games", zegt Oliehoek. "De speler heeft alle informatie. Je kunt zien welke stukken de tegenstander heeft en op welke positie ze zich bevinden. Het zijn ook deterministische spellen: je kunt bij elke zet uittekenen wat er gebeurt als je een bepaalde beweging maakt."
Dit werkt als een kansboom die zich steeds verder vertakt: elke zet heeft een aantal mogelijke tegenzetten, die ieder weer bepaalde zetten uitlokken. Voor een mens is dat uit het hoofd niet bij te houden, maar een computer kan dit soort informatie bij een schaakspel wel verwerken. Go maakte dit al een stuk lastiger, omdat dit spel veel meer mogelijke zetten kent.
Het pokerspel Texas Hold 'em was een volgende mijlpaal. Oliehoek: "Bij dit spel heb je te maken met imperfect information. Je kunt de tegenstander niet in de kaarten kijken, en dus moet je op basis van iemands gedrag inschatten wat voor kaarten die heeft." Iemand die hoog inzet, of op een bepaalde manier reageert op nieuwe kaarten - allemaal informatie die je continu moet interpreteren.

Bluffen
En dan komt er bij dit soort spellen nóg een belangrijk element kijken: bluf. Om de tegenstander in verwarring te brengen, kan het bijvoorbeeld nuttig zijn een 'domme' zet te doen. Maar je mag weer niet voorspelbaar worden in je gebluf. Dat zorgt voor een ingewikkelde mix, zegt Oliehoek.
Stratego bouwt voort op hetzelfde principe als Texas Hold 'em, maar dan met veertig speelstukken van de tegenstander die je niet kunt zien, in plaats van twee kaarten. Daarom is stratego weer een stuk gecompliceerder. Een hele kansboom uittekenen zoals bij schaken is hier geen optie. De ai moet zelf redeneren. Dat zie je ook terug in de tactiek die de onderzoekers bij DeepNash, de stratego-ai, hebben gebruikt. In plaats van DeepNash honderdduizenden potjes stratego te voeren en zo alle mogelijke zetten op te slaan, hebben ze de ai heel vaak tegen zichzelf laten spelen om beter te worden.
De mijlpaal is niet dat kunstmatige intelligentie ons genadeloos in de pan hakt met stratego. Ouders kijken niet vol trots naar hun kind dat een plastic figuurtje door een gat weet te duwen omdat het een glansrijke carrière als 'figuurduwer' tegemoetgaat - het is een teken dat het kind steeds meer begrijpt van de wereld om zich heen. Zo kijken onderzoekers vol trots als DeepNash vroeg in het spel een paar hoge stukken opoffert, om met die tactiek later een belangrijke slag te slaan.
"We noemen dat vertraagde feedback", zegt universitair docent Tavakol. 'We nemen een reeks beslissingen en moeten met veel onzekerheden omgaan. Wat doet de tegenstander? Bluft hij, maakt hij een fout? In het echte leven komen we dit soort situaties voortdurend tegen. Bijvoorbeeld in het verkeer. Daar moeten we constant inschattingen maken: versnellen, afremmen, links of rechts afslaan. Wat doet de ander? Hoe beter kunstmatige intelligentie in staat is om te improviseren en te reageren op onverwachte bewegingen, hoe beter we die kunnen inzetten in het dagelijks leven.'
Verkeersleider
In het geval van DeepNash zouden al die spelletjes stratego zomaar een voorbereiding kunnen zijn op een carrière als verkeersleider. DeepNash is ontwikkeld door onderzoekers van DeepMind, de ai-afdeling van Google. In hun publicatie schrijven de onderzoekers dat het raamwerk van deze ai in de toekomst hopelijk toepasbaar is in de echte wereld, 'zoals het optimaliseren van verkeersstromen'.
Ga gratis verder
Log in of registreer gratis op NU.nl en krijg toegang tot extra artikelen