Navers stora sprÄkmodell driver shoppingrekommendationer

Inside BigScience, the quest to build a powerful open language model


I juni meddelade Naver, det Seongnam, Sydkorea-baserade företaget som driver den sjÀlvbetitlade sökmotorn Naver, att de hade trÀnat en av de största AI-sprÄkmodellerna i sitt slag, kallad HyperCLOVA. Naver hÀvdade att systemet lÀrde sig 6 500 gÄnger mer koreansk data Àn OpenAI:s GPT-3 och innehöll 204 miljarder parametrar, de delar av maskininlÀrningsmodellen som lÀrt sig frÄn historisk trÀningsdata. (GPT-3 har 175 miljarder parametrar.)

HyperCLOVA sĂ„gs som en anmĂ€rkningsvĂ€rd prestation pĂ„ grund av modellens skala och eftersom den passar in i trenden med generativ modell “diffusion”, med flera aktörer som utvecklar GPT-3-modeller, som Huaweis PanGu-Alpha (stiliserad PanGu-α) . Fördelarna med stora sprĂ„kmodeller – inklusive möjligheten att generera mĂ€nniskoliknande text för marknadsförings- och kundsupportsyften – var tidigare begrĂ€nsade till engelska eftersom företag saknade resurser att trĂ€na dessa modeller pĂ„ andra sprĂ„k.

Under mÄnaderna sedan HyperCLOVA utvecklades har Naver börjat anvÀnda den för att anpassa sökresultaten pÄ Naver-plattformen, sa Navers verkstÀllande direktör Nako Sung till VentureBeat i en intervju. Den kommer ocksÄ snart att bli tillgÀnglig i privat beta genom HyperCLOVA Studio, ett kodfritt verktyg som ger utvecklare tillgÄng till modellen för textgenerering och klassificeringsuppgifter.

“AnvĂ€nds ursprungligen för att korrigera stavfel i sökfrĂ„gor pĂ„ Naver Search, [HyperCLOVA] möjliggör nu mĂ„nga nya funktioner pĂ„ vĂ„r e-handelsplattform, Naver Shopping, som att sammanfatta flera konsumentrecensioner pĂ„ en rad, rekommendera och kuratera produkter till anvĂ€ndarnas shoppingpreferenser eller generera trendiga marknadsföringsfraser för utvalda shoppingkollektioner, sĂ€ger Sung. “Vi lanserade ocksĂ„ CLOVA CareCall, en … samtalsagent för Ă€ldre medborgare som bor ensamma. TjĂ€nsten Ă€r baserad pĂ„ HyperCLOVA:s naturliga konversationsgenereringsförmĂ„ga, vilket gör att den kan ha mĂ€nskliga konversationer.”

Stora sprÄkmodeller

Att trÀna HyperCLOVA, som kan förstÄ engelska och japanska förutom koreanska, krÀvde storskalig datacenterinfrastruktur, enligt Sung. Naver utnyttjade ett serverkluster som bestÄr av 140 Nvidia SuperPod A100 DGX-noder, som företaget hÀvdar kan leverera upp till 700 petaflops datorkraft.

Det tog mÄnader att trÀna HyperCLOVA pÄ 2TB koreansk textdata, varav mycket kom frÄn anvÀndargenererat innehÄll pÄ Navers plattformar. Till exempel var en kÀlla Knowledge iN, en Quora-liknande, koreansksprÄkig community dÀr anvÀndare kan stÀlla frÄgor om Àmnen för att fÄ svar frÄn experter. Ett annat var offentliga inlÀgg frÄn personer som anvÀnder gratis webbhotell som tillhandahÄlls via Naver.

Sung sĂ€ger att detta skiljer HyperCLOVA frĂ„n tidigare stora sprĂ„kmodeller som GPT-3, som har en begrĂ€nsad förmĂ„ga att förstĂ„ nyanserna i sprĂ„k förutom engelska. Han hĂ€vdar att genom att lĂ„ta modellen bygga pĂ„ “den koreanska kulturens och samhĂ€llets kollektiva intelligens” kan den bĂ€ttre tjĂ€na koreanska anvĂ€ndare – och samtidigt minska Navers beroende av andra, mindre Asien-Stillahavscentrerade AI-tjĂ€nster.

I ett fĂ€rskt nummer av sitt Import AI-nyhetsbrev, hĂ€vdade den tidigare OpenAI policychefen Jack Clark att eftersom generativa modeller i slutĂ€ndan Ă„terspeglar och förstorar den data de trĂ€nas pĂ„, bryr sig olika nationer mycket om hur deras egen kultur representeras i dessa modeller. “[HyperCLOVA] Ă€r en del av en allmĂ€n trend dĂ€r olika nationer hĂ€vdar sin egen AI-kapacitet [and] kapacitet via trĂ€ningsmodeller som GPT-3”, fortsatte han. “[We’ll] invĂ€nta mer tekniska detaljer för att se om [it’s] verkligen jĂ€mförbar med GPT-3.”

Vissa experter har hĂ€vdat att eftersom företagen som utvecklar inflytelserika AI-system huvudsakligen Ă€r belĂ€gna i USA, Kina och EU, kommer en oproportionerlig del av den ekonomiska fördelen att falla inom dessa regioner – vilket kan förvĂ€rra ojĂ€mlikheten. I en analys av publikationer vid tvĂ„ stora maskininlĂ€rningskonferenser, NeurIPS 2020 och ICML 2020, fanns inget av de 10 bĂ€sta lĂ€nderna nĂ€r det gĂ€ller publikationsindex i Latinamerika, Afrika eller Sydostasien. Dessutom fann en fĂ€rsk rapport frĂ„n Georgetown Universitys Center for Security and Emerging Technology att medan 42 av de 62 stora AI-labben Ă€r belĂ€gna utanför USA, Ă€r 68 % av personalen belĂ€gna i USA.

“Dessa stora mĂ€ngder kollektiv intelligens berikar och stĂ€rker stĂ€ndigt HyperCLOVA,” sa Sung. “Den mest vĂ€lkĂ€nda hyperskala sprĂ„kmodellen Ă€r GPT-3, och den trĂ€nas huvudsakligen med engelska data och lĂ€rs bara ut 0,016% av koreanska data av den totala inmatningen … [C]Med tanke pĂ„ effekterna av hyperskalig AI pĂ„ industrier och ekonomier inom en snar framtid Ă€r vi övertygade om att det Ă€r mycket viktigt att bygga en koreansk sprĂ„kbaserad AI för Koreas AI-suverĂ€nitet.”

Utmaningar med att utveckla modeller

Bland annat har den ledande AI-forskaren Timnit Gebru ifrÄgasatt det kloka i att bygga stora sprÄkmodeller, undersöka vem som tjÀnar pÄ dem och vem som tar skada. Det Àr vÀletablerat att modeller kan förstÀrka fördomar i data som de trÀnades pÄ, och effekterna av modelltrÀning pÄ miljön har tagits upp som allvarliga problem.

För att ta itu med frĂ„gorna kring partiskhet sĂ€ger Sung att Naver för diskussioner med “externa experter” inklusive forskare vid Seoul National Universitys AI Policy Initiative och planerar att bilda en rĂ„dgivande kommittĂ© för AI-etik i Korea i Ă„r. Företaget slĂ€ppte ocksĂ„ ett riktmĂ€rke – Korean Language Understanding Evaluation (KLUE) – för att utvĂ€rdera de naturliga sprĂ„kförstĂ„elsemöjligheterna hos koreanska sprĂ„kmodeller inklusive HyperCLOVA.

“Vi inser att Ă€ven om AI kan göra vĂ„ra liv bekvĂ€ma, Ă€r den inte heller ofelbar som alla andra tekniker som anvĂ€nds idag,” tillade han. “Samtidigt som vi strĂ€var efter bekvĂ€mlighet i tjĂ€nsten vi tillhandahĂ„ller, kommer Naver ocksĂ„ att strĂ€va efter att förklara vĂ„r AI-tjĂ€nst pĂ„ ett sĂ€tt som anvĂ€ndarna enkelt kan förstĂ„ pĂ„ deras begĂ€ran eller nĂ€r det Ă€r nödvĂ€ndigt … Vi kommer att uppmĂ€rksamma sĂ€kerheten under alla stadier av design och testning av vĂ„ra tjĂ€nster, inklusive efter att tjĂ€nsten har distribuerats, för att förhindra en situation dĂ€r AI som ett dagligt verktyg hotar livet eller orsakar fysisk skada pĂ„ mĂ€nniskor.”

Verkliga applikationer

För nĂ€rvarande sĂ€ger Naver att HyperCLOVA utnyttjas för olika Naver-tjĂ€nster, inklusive Naver Smart Stores, företagets e-handelsmarknad, dĂ€r det “korrigerar” namnen pĂ„ produkter genom att generera “mer attraktiva” namn jĂ€mfört med de ursprungliga sökmotoroptimerade SKU:erna. I ett annat e-handelsfall anvĂ€nder Naver HyperCLOVA för att skapa produktrekommendationssystem som Ă€r skrĂ€ddarsydda för shoppares individuella preferenser.

Naver HyperCLOVA

“Även om HyperCLOVA inte specifikt lĂ€r sig anvĂ€ndarnas köploggar, upptĂ€ckte vi att det i viss mĂ„n kunde rekommendera produkter pĂ„ vĂ„r marknadsplats. SĂ„ vi finjusterade denna funktion och introducerade den som en av vĂ„ra e-handelsfunktioner. Till skillnad frĂ„n de befintliga rekommendationsalgoritmerna visar den hĂ€r modellen den “generaliserade” förmĂ„gan att prestera bra pĂ„ kalla föremĂ„l, kalla anvĂ€ndare och kalla tjĂ€nster, sĂ€ger Sung. ”Att rekommendera en viss gĂ„va till nĂ„gon Ă€r inte ett lĂ€mpligt problem för traditionell maskininlĂ€rning att lösa. Det beror pĂ„ att det inte finns nĂ„gon information om mottagaren av gĂ„van… [But] med HyperCLOVA kunde vi göra den hĂ€r upplevelsen möjlig.”

HyperCLOVA driver ocksÄ en AI-driven samtalstjÀnst för pensionÀrer som bor ensamma, som Naver sÀger att de planerar att förfina för att ge mer personliga samtal i framtiden. Utöver detta sÀger Naver att det utvecklar en flersprÄkig version av HyperCLOVA som kan förstÄ tvÄ eller flera sprÄk samtidigt och ett API som gör det möjligt för utvecklare att bygga appar och tjÀnster ovanpÄ modellen.

Pandemin har pĂ„skyndat vĂ€rldens digitala transformation och drivit företag att bli mer beroende av programvara för att effektivisera sina processer. Som ett resultat Ă€r efterfrĂ„gan pĂ„ naturligt sprĂ„kteknologi nu högre Ă€n nĂ„gonsin – sĂ€rskilt i företaget. Enligt en undersökning frĂ„n 2021 frĂ„n John Snow Labs och Gradient Flow angav 60 % av teknikledarna att deras budgetar för behandling av naturligt sprĂ„k vĂ€xte med minst 10 % jĂ€mfört med 2020, medan en tredjedel – 33 % – sa att deras utgifter ökade med mer Ă€n 30 %.

Den globala NLP-marknaden förvÀntas klÀttra i vÀrde till 35,1 miljarder dollar Är 2026.

“Det mest intressanta med HyperCLOVA Ă€r att dess anvĂ€ndbarhet inte bara Ă€r begrĂ€nsad till AI-experter, sĂ„som ingenjörer och forskare, utan den har ocksĂ„ anvĂ€nts av tjĂ€nsteplanerare och affĂ€rschefer inom vĂ„r organisation. De flesta av vinnarna [in a recent HyperCLOVA hackathon] kom frĂ„n icke-AI-utvecklare positioner, vilket jag tror bevisar att HyperCLOVAs no-code AI-plattform kommer att ge alla AI-kapaciteter, avsevĂ€rt accelerera hastigheten för AI-transformation och Ă€ndra dess omfattning i framtiden.”

VentureBeats uppdrag ska vara ett digitalt stadstorg för tekniska beslutsfattare att fÄ kunskap om transformativ företagsteknik och handla. LÀs mer om medlemskap.