DeepMind satsar pÄ AI-system som kan spela poker, schack, Go och mer

DeepMind satsar pÄ AI-system som kan spela poker, schack, Go och mer


DeepMind, AI-labbet som stöds av Googles moderbolag Alphabet, har lÀnge investerat i spelande AI-system. Det Àr labbets filosofi att spel, Àven om de saknar en uppenbar kommersiell tillÀmpning, Àr unikt relevanta utmaningar för kognitiva och resonerande kapaciteter. Detta gör dem till anvÀndbara riktmÀrken för AI-framsteg. Under de senaste decennierna har spel gett upphov till den typ av sjÀlvlÀrande AI som driver datorseende, sjÀlvkörande bilar och naturlig sprÄkbehandling.

I en fortsÀttning pÄ sitt arbete har DeepMind skapat ett system som heter Player of Games, vilket företaget först avslöjade i en forskningsartikel som publicerades pÄ preprint-servern Arxiv.org denna vecka. Till skillnad frÄn de andra spelsystem som DeepMind utvecklat tidigare, som det schackvinnande AlphaZero och StarCraft II-betyget AlphaStar, kan Player of Games prestera bra i bÄde perfekta informationsspel (t.ex. det kinesiska brÀdspelet Go och schack) sÄvÀl som imperfekta informationsspel (t.ex. poker).

Uppgifter som ruttplanering kring trĂ€ngsel, avtalsförhandlingar och till och med interaktion med kunder involverar alla kompromisser och hĂ€nsyn till hur mĂ€nniskors preferenser sammanfaller och konflikter, som i spel. Även nĂ€r AI-system Ă€r egenintresserade kan de vinna genom att koordinera, samarbeta och interagera mellan grupper av mĂ€nniskor eller organisationer. System som Player of Games, som kan resonera om andras mĂ„l och motivation, skulle kunna bana vĂ€g för AI som framgĂ„ngsrikt kan arbeta med andra – inklusive hantering av frĂ„gor som uppstĂ„r kring att behĂ„lla förtroende.

Imperfekt kontra perfekt

Spel med ofullstÀndig information har information som Àr dold för spelare under spelets gÄng. DÀremot visar perfekta informationsspel all information i början.

Perfekta informationsspel krĂ€ver en anstĂ€ndig mĂ€ngd eftertĂ€nksamhet och planering för att spela bra. Spelare mĂ„ste bearbeta vad de ser pĂ„ tavlan och bestĂ€mma vad deras motstĂ„ndare sannolikt kommer att göra medan de arbetar mot det slutliga mĂ„let att vinna. Å andra sidan krĂ€ver imperfekta informationsspel att spelarna tar hĂ€nsyn till den dolda informationen och tar reda pĂ„ hur de ska agera hĂ€rnĂ€st för att vinna – inklusive att eventuellt bluffa eller slĂ„ sig ihop mot en motstĂ„ndare.

System som AlphaZero utmĂ€rker sig i perfekta informationsspel som schack, medan algoritmer som DeepStack och Libratus presterar anmĂ€rkningsvĂ€rt bra i imperfekta informationsspel som poker. Men DeepMind hĂ€vdar att Player of Games Ă€r den första “allmĂ€nna och sunda sökalgoritmen” för att uppnĂ„ stark prestanda över bĂ„de perfekta och ofullkomliga informationsspel.

“[Player of Games] lĂ€r sig spela [games] frĂ„n grunden, helt enkelt genom att upprepade gĂ„nger spela spelet i sjĂ€lvspelande, sĂ€ger DeepMind seniorforskare Martin Schmid, en av medskaparna till Player of Games, till VentureBeat via e-post. “Detta Ă€r ett steg mot allmĂ€ngiltighet – Player of Games kan spela bĂ„de perfekta och ofullkomliga informationsspel, samtidigt som de byter bort lite styrka i prestanda. AlphaZero Ă€r starkare Ă€n Player of Games i perfekta informationsspel, men [it’s] inte designad för ofullkomliga informationsspel.”

Även om Player of Games Ă€r extremt generaliserbart, kan det inte bara spela spel. Schmid sĂ€ger att systemet mĂ„ste tĂ€nka pĂ„ alla möjliga perspektiv för varje spelare givet en situation i spelet. Även om det bara finns ett enda perspektiv i perfekta informationsspel, kan det finnas mĂ„nga sĂ„dana perspektiv i imperfekta informationsspel – till exempel runt 2 000 för poker. Dessutom, till skillnad frĂ„n MuZero, DeepMinds eftertrĂ€dare till AlphaZero, behöver Player of Games ocksĂ„ kunskap om spelreglerna som den spelar. MuZero kan plocka upp reglerna för perfekta informationsspel i farten.

I sin forskning utvĂ€rderade DeepMind Player of Games – trĂ€nad med Googles TPUv4 acceleratorchipset – pĂ„ schack, Go, Texas Hold’Em och strategibrĂ€dspelet Scotland Yard. För Go skapade den en 200-spelsturnering mellan AlphaZero och Player of Games, medan DeepMind för schack stĂ€llde Player of Games mot topppresterande system inklusive GnuGo, Pachi och Stockfish samt AlphaZero. Player of Games’ Texas Hold’Em-match spelades med den öppet tillgĂ€ngliga Slumbot, och algoritmen spelade Scotland Yard mot en bot utvecklad av Joseph Antonius Maria Nijssen som DeepMinds medförfattare gav smeknamnet “PimBot.”

I schack och Go visade sig Player of Games vara starkare Ă€n Stockfish och Pachi i vissa — men inte alla — konfigurationer, och den vann 0,5 % av sina matcher mot den starkaste AlphaZero-agenten. Trots de branta förlusterna mot AlphaZero, tror DeepMind att Player of Games presterade pĂ„ nivĂ„n “en topp mĂ€nsklig amatör” och möjligen Ă€ven pĂ„ professionell nivĂ„.

Player of Games var en bĂ€ttre poker- och Scotland Yard-spelare. Mot Slumbot vann algoritmen i genomsnitt med 7 milli stora mörkar per hand (mbb/hand), dĂ€r en mbb/hand Ă€r det genomsnittliga antalet vunna stora mörkar per 1 000 hĂ€nder. (En stor mörk Ă€r lika med minimiinsatsen.) Samtidigt rapporterar DeepMind i Scotland Yard att Player of Games vann “avsevĂ€rt” mot PimBot, Ă€ven nĂ€r PimBot fick fler möjligheter att söka efter de vinnande dragen.

Framtida arbete

Schmid tror att Player of Games Ă€r ett stort steg mot verkligt allmĂ€nna spelsystem – men lĂ„ngt ifrĂ„n det sista. Den allmĂ€nna trenden i experimenten var att algoritmen presterade bĂ€ttre med tanke pĂ„ fler berĂ€kningsresurser (Player of Games trĂ€nade pĂ„ en datauppsĂ€ttning av 17 miljoner “steg” eller Ă„tgĂ€rder, enbart för Scotland Yard), och Schmid förvĂ€ntar sig att detta tillvĂ€gagĂ„ngssĂ€tt kommer att skalas inom det förutsebara framtida.

“[O]man kan förvĂ€nta sig att de applikationer som drar nytta av AlphaZero ocksĂ„ kan dra nytta av Player of Games, sĂ€ger Schmid. “Att göra dessa algoritmer Ă€nnu mer generella Ă€r spĂ€nnande forskning.”

Naturligtvis missgynnar tillvĂ€gagĂ„ngssĂ€tt som gynnar enorma mĂ€ngder datorer organisationer med fĂ€rre resurser, som nystartade företag och akademiska institutioner. Detta har blivit sĂ€rskilt sant inom sprĂ„kdomĂ€nen, dĂ€r massiva modeller som OpenAI:s GPT-3 har uppnĂ„tt ledande prestanda men med resurskrav – ofta i miljontals dollar – som vida överstiger budgeten för de flesta forskargrupper.

Kostnaderna stiger ibland över vad som anses acceptabelt Ă€ven hos ett företag med djupa fickor som DeepMind. För AlphaStar försökte företagets forskare mĂ„lmedvetet inte flera sĂ€tt att utforma en nyckelkomponent eftersom utbildningskostnaden skulle ha varit för hög i chefernas medvetande. DeepMind noterade sin första vinst först förra Ă„ret, dĂ„ det fick in 826 miljoner pund (1,13 miljarder dollar) i intĂ€kter. Året innan noterade DeepMind förluster pĂ„ 572 miljoner dollar och tog pĂ„ sig en skuld pĂ„ en miljard dollar.

Det uppskattas att AlphaZero kostade tiotals miljoner dollar att trÀna. DeepMind avslöjade inte forskningsbudgeten för Player of Games, men den kommer sannolikt inte att vara lÄg med tanke pÄ att antalet trÀningssteg för varje spel varierade frÄn hundratusentals till miljoner.

NĂ€r forskningen sĂ„ smĂ„ningom övergĂ„r frĂ„n spel till andra, mer kommersiella domĂ€ner, som apprekommendationer, optimering av kylning av datacenter, vĂ€derprognoser, materialmodellering, matematik, hĂ€lsovĂ„rd och atomenergiberĂ€kning, kommer effekterna av ojĂ€mlikheten sannolikt att bli starkare. “[A]En intressant frĂ„ga Ă€r om den hĂ€r spelnivĂ„n Ă€r möjlig att uppnĂ„ med mindre berĂ€kningsresurser”, funderar Schmid och hans medförfattare – men lĂ€mnar obesvarade – i tidningen.

GamesBeats trosbekĂ€nnelse nĂ€r man tĂ€cker spelindustrin Ă€r “dĂ€r passion möter affĂ€rer.” Vad betyder det hĂ€r? Vi vill berĂ€tta hur nyheterna Ă€r viktiga för dig — inte bara som beslutsfattare pĂ„ en spelstudio, utan ocksĂ„ som fan av spel. Oavsett om du lĂ€ser vĂ„ra artiklar, lyssnar pĂ„ vĂ„ra podcaster eller tittar pĂ„ vĂ„ra videor, kommer GamesBeat att hjĂ€lpa dig att lĂ€ra dig om branschen och njuta av att engagera dig i den. LĂ€s mer om medlemskap.