BegrÀnsningarna med att skala upp AI-sprÄkmodeller

Propaganda-som-en-tjÀnst kan vara i horisonten om stora sprÄkmodeller missbrukas


Stora sprÄkmodeller som OpenAI:s GPT-3 visar en förmÄga att generera mÀnsklig text och kod, automatiskt skriva e-postmeddelanden och artiklar, komponera poesi och fixa buggar i programvara. Men det dominerande tillvÀgagÄngssÀttet för att utveckla dessa modeller innebÀr att utnyttja enorma berÀkningsresurser, vilket fÄr konsekvenser. Utöver det faktum att utbildning och implementering av stora sprÄkmodeller kan medföra höga tekniska kostnader, sÄ sÀtter kraven modellerna utom rÀckhÄll för mÄnga organisationer och institutioner. Skalning löser inte heller det stora problemet med modellbias och toxicitet, som ofta smyger sig in frÄn data som anvÀnds för att trÀna modellerna.

I en panel under Conference on Neural Information Processing Systems (NeurIPS) 2021 diskuterade experter frÄn fÀltet hur forskarsamhÀllet bör anpassa sig eftersom framstegen inom sprÄkmodeller fortsÀtter att drivas av uppskalade algoritmer. Paneldeltagarna undersökte hur man kan sÀkerstÀlla att mindre institutioner och meningsfullt kan forska och granska storskaliga system, samt hur de kan bidra till att sÀkerstÀlla att systemen fungerar som avsett.

Melanie Mitchell, professor i datavetenskap vid Santa Fe Institute, tog upp poĂ€ngen att det Ă€r svĂ„rt att sĂ€kerstĂ€lla samma normer för reproducerbarhet för stora sprĂ„kmodeller jĂ€mfört med andra, mindre typer av AI-system. AI hade redan ett reproducerbarhetsproblem — studier ger ofta benchmarkresultat i stĂ€llet för kĂ€llkod, vilket blir problematiskt nĂ€r noggrannheten i riktmĂ€rkena ifrĂ„gasĂ€tts. Men den omfattande berĂ€kning som krĂ€vs för att testa stora sprĂ„kmodeller hotar att förvĂ€rra problemet, sĂ€rskilt som modellerna i frĂ„ga fördubblas, tredubblas eller till och med fyrdubblas i storlek.

Som en illustration av utmaningen att arbeta med stora sprÄkmodeller har Nvidia nyligen öppnat Megatron-Turing Natural Language Generation (MT-NLG), en av vÀrldens största sprÄkmodeller med 530 miljarder parametrar. I maskininlÀrning Àr parametrar den del av modellen som lÀrs frÄn historisk trÀningsdata. Generellt sett, inom sprÄkdomÀnen, har korrelationen mellan antalet parametrar och sofistikering hÄllit sig anmÀrkningsvÀrt vÀl. Modellen trÀnades ursprungligen pÄ 560 Nvidia DGX A100-servrar, var och en med 8 Nvidia A100 80GB GPU:er. Microsoft och Nvidia sÀger att de observerade mellan 113 till 126 teraflops per sekund (ett mÄtt pÄ prestanda) per GPU nÀr de trÀnade MT-NLG, vilket skulle lÀgga utbildningskostnaden i miljontals dollar.

Även OpenAI – som har hundratals miljoner dollar i finansiering frĂ„n Microsoft – kĂ€mpar med detta. Företaget Ă„tgĂ€rdade inte ett misstag nĂ€r det implementerade GPT-3, en sprĂ„kmodell med mindre Ă€n hĂ€lften sĂ„ mĂ„nga parametrar som MT-NLG, eftersom kostnaden för utbildning gjorde omskolning av modellen omöjlig.

“Ofta kommer mĂ€nniskor pĂ„ maskininlĂ€rningskonferenser att ge resultat som “nya antal parametrar i vĂ„rt system gav den hĂ€r nya prestandan pĂ„ detta benchmark”, men det Ă€r verkligen svĂ„rt att förstĂ„ exakt varför [the system achieves this]”, sa Mitchell. “Det tar upp svĂ„righeten att göra vetenskap med dessa system … De flesta mĂ€nniskor i den akademiska vĂ€rlden har inte berĂ€kningsresurserna för att göra den typ av vetenskap som behövs.”

Men Àven med de nödvÀndiga berÀkningsresurserna Àr benchmarking av stora sprÄkmodeller inte ett löst problem. Det Àr pÄstÄendet frÄn vissa experter att populÀra riktmÀrken gör ett dÄligt jobb med att uppskatta verkliga prestanda och misslyckas med att ta hÀnsyn till de bredare etiska, tekniska och samhÀlleliga konsekvenserna. Till exempel fann en nyligen genomförd studie att 60 % till 70 % av svaren som gavs av bearbetningsmodeller för naturligt sprÄk var inbÀddade nÄgonstans i riktmÀrket utbildningsuppsÀttningar, vilket indikerar att modellerna memorerade svar.

“[The] sĂ€tt att mĂ€ta dessa systems prestanda mĂ„ste utökas … NĂ€r riktmĂ€rkena Ă€ndras lite, de [often] generalisera inte bra”, fortsatte Mitchell. “SĂ„ jag tror att sĂ€tten att undersöka systemen och sĂ€tten att mĂ€ta deras prestanda mĂ„ste vara ett stort problem inom hela det hĂ€r omrĂ„det, och att vi mĂ„ste lĂ€gga mer tid pĂ„ det.”

BegrÀnsningar föder kreativitet

Joelle Pineau, co-managing director pĂ„ Meta AI Research, Metas (tidigare Facebook) AI-forskningsavdelning, ifrĂ„gasatte vilken typ av vetenskaplig kunskap man kan fĂ„ genom att helt enkelt skala stora sprĂ„kmodeller. Till hennes poĂ€ng kommer efterföljaren till GPT-3 enligt uppgift innehĂ„lla omkring 100 biljoner parametrar, men i en forskningsartikel som publicerades denna vecka, beskriver Alphabets DeepMind en sprĂ„kmodell – RETRO – som den hĂ€vdar kan slĂ„ andra 25 gĂ„nger dess storlek genom att anvĂ€nda “extern minnestekniker.

Faktum Àr att resursbegrÀnsad kan leda till nya lösningar med implikationer utöver det problem som de ursprungligen skapades för att lösa. DeepMind-forskaren Oriol Vinyals pÄpekade att Transformer, en AI-arkitektur som har fÄtt stor uppmÀrksamhet under de senaste Ären, kom till pÄ jakt efter ett mer resurseffektivt sÀtt att utveckla naturliga sprÄksystem. Sedan introduktionen 2017 har Transformer blivit den valda arkitekturen för naturliga sprÄkuppgifter och har visat en förmÄga att sammanfatta dokument, komponera musik, översÀtta mellan sprÄk, analysera DNA-sekvenser och mer.

Dessa lösningar kan eventuellt beröra partiskhet – ett stĂ€ndigt problem inom naturlig sprĂ„kbehandling. Eftersom ett annat DeepMind-arbete lyfter fram, kan stora sprĂ„kmodeller vidmakthĂ„lla stereotyper och skada missgynnade grupper genom att prestera dĂ„ligt för dem. Dessutom kan dessa modeller tillhandahĂ„lla falsk eller vilseledande information, eller direkt desinformation, vilket undergrĂ€ver förtroendet.

“Jag vill tillĂ€gga att en av farorna med dessa modeller Ă€r att mĂ€nniskor ger dem för mycket kredit”, sa Mitchell. “De lĂ„ter verkligen mĂ€nskliga och de kan göra alla dessa saker, och sĂ„ mĂ€nniskor – inte bara allmĂ€nheten, utan Ă€ven AI-forskare sjĂ€lva – liksom antropomorferar dem för mycket … och kanske tillĂ„ter mĂ€nniskor att anvĂ€nda dem pĂ„ ett sĂ€tt som de inte borde nödvĂ€ndigtvis anvĂ€ndas. [W]e bör betona inte bara [the] FörmĂ„gor [of large language models]men deras grĂ€nser.”

VentureBeats uppdrag ska vara ett digitalt stadstorg för tekniska beslutsfattare att fÄ kunskap om transformativ företagsteknik och handla. LÀs mer om medlemskap.