AI Weekly: Nya arkitekturer kan göra stora sprÄkmodeller mer skalbara

Inside BigScience, the quest to build a powerful open language model


Med början pĂ„ allvar med OpenAI:s GPT-3, har fokus inom omrĂ„det naturlig sprĂ„kbehandling vĂ€nts till stora sprĂ„kmodeller (LLM). LLM:er – betecknade med mĂ€ngden data, berĂ€kning och lagring som krĂ€vs för att utveckla dem – Ă€r kapabla till imponerande bragder av sprĂ„kförstĂ„else, som att generera kod och skriva rimpoesi. Men som ett ökande antal studier pĂ„pekar, Ă€r LLM:er opraktiskt stora för de flesta forskare och organisationer att dra nytta av. Inte bara det, utan de förbrukar en mĂ€ngd ström som ifrĂ„gasĂ€tter om de Ă€r hĂ„llbara att anvĂ€nda pĂ„ lĂ„ng sikt.

Ny forskning tyder pĂ„ att detta inte behöver vara fallet för alltid. I en ny artikel introducerade Google Generalist Language Model (GLaM), som företaget hĂ€vdar Ă€r en av de mest effektiva LLM:erna av sin storlek och typ. Trots att det innehĂ„ller 1,2 biljoner parametrar – nĂ€stan sex gĂ„nger sĂ„ mycket i GPT-3 (175 miljarder) – sĂ€ger Google att GLaM förbĂ€ttras över populĂ€ra sprĂ„kriktmĂ€rken samtidigt som det anvĂ€nder “betydligt” mindre berĂ€kning under slutledning.

“VĂ„r storskaliga … sprĂ„kmodell, GLaM, uppnĂ„r konkurrenskraftiga resultat pĂ„ noll- och engĂ„ngsinlĂ€rning och Ă€r en mer effektiv modell Ă€n tidigare monolitiska tĂ€ta motsvarigheter”, skrev Google-forskarna bakom GLaM i ett blogginlĂ€gg. “Vi hoppas att vĂ„rt arbete kommer att vĂ€cka mer forskning om berĂ€kningseffektiva sprĂ„kmodeller.”

Gleshet vs. tÀthet

I maskininlĂ€rning Ă€r parametrar den del av modellen som lĂ€rs frĂ„n historisk trĂ€ningsdata. Generellt sett, inom sprĂ„kdomĂ€nen, har korrelationen mellan antalet parametrar och sofistikering hĂ„llit sig anmĂ€rkningsvĂ€rt vĂ€l. DeepMinds nyligen detaljerade Gopher-modell har 280 miljarder parametrar, medan Microsofts och Nvidias Megatron 530B stĂ„tar med 530 miljarder. BĂ„da Ă€r bland de bĂ€sta – om inte de bĂ€sta – presterande pĂ„ viktiga benchmarkuppgifter för naturligt sprĂ„k, inklusive textgenerering.

Men att trÀna en modell som Megatron 530B krÀver hundratals GPU- eller acceleratorutrustade servrar och miljontals dollar. Det Àr ocksÄ dÄligt för miljön. Enbart GPT-3 anvÀnde 1 287 megawatt under trÀning och producerade 552 ton koldioxidutslÀpp, fann en Google-studie. Det motsvarar ungefÀr de Ärliga utslÀppen frÄn 58 hem i USA

Det som skiljer GLaM frĂ„n de flesta LLM:er hittills Ă€r dess “blandning av experter” (MoE) arkitektur. En MoE kan ses som att den har olika lager av “undermodeller” eller experter, specialiserade pĂ„ olika texter. Experterna i varje lager styrs av en “gating”-komponent som knackar pĂ„ experterna baserat pĂ„ texten. För ett givet ord eller del av ett ord vĂ€ljer grindkomponenten de tvĂ„ mest lĂ€mpliga experterna för att bearbeta ordet eller orddelen och göra en förutsĂ€gelse (t.ex. generera text).

Den fullstĂ€ndiga versionen av GLaM har 64 experter per MoE-lager med totalt 32 MoE-lager, men anvĂ€nder bara ett undernĂ€tverk pĂ„ 97 miljarder (8 % av 1,2 biljoner) parametrar per ord eller orddel under bearbetningen. “TĂ€ta” modeller som GPT-3 anvĂ€nder alla sina parametrar för bearbetning, vilket avsevĂ€rt ökar de berĂ€kningsmĂ€ssiga – och ekonomiska – kraven. Nvidia sĂ€ger till exempel att bearbetning med Megatron 530B kan ta över en minut pĂ„ en CPU-baserad lokal server. Det tar en halv sekund pĂ„ tvĂ„ Nvidia-designade DGX-system, men bara ett av dessa system kan kosta $7 miljoner till $60 miljoner.

GLaM Ă€r inte perfekt – det övertrĂ€ffar eller Ă€r i nivĂ„ med prestanda för en tĂ€t LLM i mellan 80 % och 90 % (men inte alla) av uppgifterna. Och GLaM anvĂ€nder mer berĂ€kning under trĂ€ning, eftersom den trĂ€nar pĂ„ en datauppsĂ€ttning med fler ord och orddelar Ă€n de flesta LLM:er. (I motsats till de miljarder ord som GPT-3 lĂ€rde sig sprĂ„k frĂ„n, tog GLaM in en datauppsĂ€ttning som frĂ„n början var över 1,6 biljoner ord i storlek.) Men Google hĂ€vdar att GLaM anvĂ€nder mindre Ă€n hĂ€lften av det som behövs för att trĂ€na GPT-3 vid 456 megawattimmar (Mwh) mot 1 286 Mwh. För sammanhanget rĂ€cker en enda megawatt för att driva cirka 796 hem under ett Ă„r.

”GLaM Ă€r Ă€nnu ett steg i industrialiseringen av stora sprĂ„kmodeller. Teamet tillĂ€mpar och förfinar mĂ„nga moderna justeringar och framsteg för att förbĂ€ttra prestandan och slutsatskostnaden för den hĂ€r senaste modellen, och kommer undan med en imponerande ingenjörskonst, sĂ€ger Connor Leahy, dataforskare vid EleutherAI, ett forskningskollektiv för öppen AI, till VentureBeat . “Även om det inte finns nĂ„got vetenskapligt banbrytande i den hĂ€r senaste modelliterationen, visar det hur mycket ingenjörsarbete företag som Google lĂ€gger bakom LLMs.”

Framtida arbete

GLaM, som bygger pĂ„ Googles egen Switch Transformer, ett MoE med biljoner parametrar som detaljerades i januari, följer i hĂ€larna pĂ„ andra tekniker för att förbĂ€ttra effektiviteten hos LLM. Ett separat team av Google-forskare har föreslagit finjusterat sprĂ„knĂ€t (FLAN), en modell som bĂ€st ger GPT-3 “med stor marginal” pĂ„ ett antal utmanande riktmĂ€rken trots att den Ă€r mindre (och mer energieffektiv). DeepMind hĂ€vdar att en annan av dess sprĂ„kmodeller, Retro, kan slĂ„ LLM:er 25 gĂ„nger dess storlek, tack vare ett externt minne som gör att den kan leta upp textstycken i farten.

Naturligtvis Àr effektivitet bara ett hinder att övervinna nÀr det gÀller LLMs. Efter liknande undersökningar av bland annat AI-etikerna Timnit Gebru och Margaret Mitchell, lyfte DeepMind förra veckan fram nÄgra av de problematiska tendenserna hos LLM, som inkluderar att vidmakthÄlla stereotyper, anvÀnda giftigt sprÄk, lÀcka kÀnslig information, tillhandahÄlla falsk eller vilseledande information och att prestera dÄligt för minoritetsgrupper.

Lösningar pĂ„ dessa problem kommer inte omedelbart. Men förhoppningen Ă€r att arkitekturer som MoE (och kanske GLaM-liknande modeller) kommer att göra LLM mer tillgĂ€ngliga för forskare, vilket gör det möjligt för dem att undersöka potentiella sĂ€tt att fixa – eller Ă„tminstone mildra – de vĂ€rsta problemen.

För AI-bevakning, skicka nyhetstips till Kyle Wiggers – och se till att prenumerera pĂ„ AI Weekly-nyhetsbrevet och bokmĂ€rka vĂ„r AI-kanal, The Machine.

Tack för att du lÀser,

Kyle Wiggers

AI Staff Writer

VentureBeats uppdrag ska vara ett digitalt stadstorg för tekniska beslutsfattare att fÄ kunskap om transformativ företagsteknik och handla. LÀs mer om medlemskap.