DatamÀrkning kommer att underblÄsa AI-revolutionen

DatamÀrkning kommer att underblÄsa AI-revolutionen


AI ger brĂ€nsle till det moderna livet – frĂ„n hur vi pendlar till hur vi bestĂ€ller online och hur vi hittar en dejt eller ett jobb. Miljarder mĂ€nniskor anvĂ€nder AI-drivna applikationer varje dag, bara titta pĂ„ Facebook och Google-anvĂ€ndare. Detta representerar toppen av isberget nĂ€r det kommer till AI:s potential.

OpenAI, som nyligen skapade rubriker igen för att erbjuda allmĂ€n tillgĂ€nglighet till sina modeller, anvĂ€nder mĂ€rkta data för att “förbĂ€ttra sprĂ„kmodellens beteende” eller för att göra dess AI mer rĂ€ttvis och mindre partisk. Detta Ă€r ett viktigt exempel, eftersom OpenAI:s modeller lĂ€nge tillrĂ€ttavisades för att vara giftiga och rasistiska.

MÄnga av de AI-applikationer vi anvÀnder dagligen krÀver en viss datauppsÀttning för att fungera vÀl. För att skapa dessa datauppsÀttningar mÄste vi mÀrka data för AI.

Varför behöver AI datamÀrkning?

Termen artificiell intelligens Àr nÄgot av en felaktig benÀmning. AI Àr faktiskt inte intelligent. Den tar in data och anvÀnder algoritmer för att göra förutsÀgelser baserat pÄ dessa data. Denna process krÀver en stor mÀngd mÀrkt data.

Detta Àr sÀrskilt fallet nÀr det kommer till utmanande domÀner som hÀlsovÄrd, innehÄllsmoderering eller autonoma fordon. I mÄnga fall krÀvs fortfarande mÀnsklig bedömning för att sÀkerstÀlla att modellerna Àr korrekta.

TĂ€nk pĂ„ exemplet med sarkasm i moderering av innehĂ„ll i sociala medier. Ett Facebook-inlĂ€gg kan lĂ€sa: “Jösses, du Ă€r sĂ„ smart!” Det kan dock vara sarkastiskt pĂ„ ett sĂ€tt som en robot skulle missa. Mer skadligt Ă€r att en sprĂ„kmodell som trĂ€nas pĂ„ partisk data kan vara sexistisk, rasistisk eller pĂ„ annat sĂ€tt giftig. Till exempel associerade GPT-3-modellen en gĂ„ng muslimer och islam med terrorism. Detta var tills mĂ€rkt data anvĂ€ndes för att förbĂ€ttra modellens beteende.

SĂ„ lĂ€nge som den mĂ€nskliga fördomen ocksĂ„ hanteras, tillĂ„ter “övervakade modeller mer kontroll över partiskhet i dataurval”, stod det i en TechCrunch-artikel frĂ„n 2018. OpenAI:s nyare modeller Ă€r ett perfekt exempel pĂ„ att anvĂ€nda mĂ€rkt data för att kontrollera bias. Att kontrollera bias med datamĂ€rkning Ă€r av avgörande betydelse, eftersom AI-modeller av lĂ„g kvalitet till och med har stĂ€llt företag i domstol, vilket var fallet med ett företag som försökte anvĂ€nda AI som skĂ€rmlĂ€sare, för att senare behöva gĂ„ med pĂ„ en förlikning nĂ€r modellen fungerade inte som annonserat.

Vikten av högkvalitativa AI-modeller Ă€r ocksĂ„ pĂ„ vĂ€g in i regelverk. Till exempel skulle Europeiska kommissionens regelverksförslag om artificiell intelligens utsĂ€tta vissa AI-system för “hög kvalitet pĂ„ datamĂ€ngderna som matar systemet för att minimera risker och diskriminerande resultat.”

Standardiserad sprĂ„k- och tonanalys Ă€r ocksĂ„ avgörande vid innehĂ„llsmoderering. Det Ă€r inte ovanligt att mĂ€nniskor har olika definitioner av ordet “bokstavligen” eller hur bokstavligt de ska ta nĂ„got som “Det var som att slĂ„ huvudet mot en vĂ€gg!” För att avgöra vilka inlĂ€gg som bryter mot gemenskapsstandarder mĂ„ste vi analysera dessa typer av subtiliteter.

PÄ samma sÀtt anvÀnder AI-startup Handl mÀrkta data för att mer exakt konvertera dokument till strukturerad text. Vi har alla hört talas om OCR (Object Character Recognition), men med AI-driven av mÀrkta data tas det till en helt ny nivÄ.

För att ge ett annat exempel, för att trÀna en algoritm för att analysera medicinska bilder för tecken pÄ cancer, skulle du behöva ha ett stort dataset med medicinska bilder mÀrkta med nÀrvaro eller frÄnvaro av cancer. Denna uppgift kallas vanligen för bildsegmentering och krÀver mÀrkning av tiotusentals prover i varje bild. Ju mer data du har, desto bÀttre blir din modell pÄ att göra korrekta förutsÀgelser.

Visst, det Àr möjligt att anvÀnda omÀrkta data för AI-trÀningsalgoritmer, men detta kan leda till partiska resultat, vilket kan fÄ allvarliga konsekvenser i mÄnga verkliga fall.

Applikationer som anvÀnder datamÀrkning

DatamÀrkning Àr avgörande för applikationer inom sökning, datorseende, röstassistenter, innehÄllsmoderering och mer.

Search var ett av de första stora anvĂ€ndningsfallen för AI som förlitade sig pĂ„ mĂ€nskligt omdöme för att faststĂ€lla relevans. Med mĂ€rkta data kan en sökning vara extremt exakt. Yandex vĂ€nde sig till exempel till mĂ€nskliga “annotatorer” frĂ„n Toloka för att hjĂ€lpa till att förbĂ€ttra sin sökmotor.

NÄgra av de mest populÀra anvÀndningarna av AI inom hÀlso- och sjukvÄrden inkluderar att hjÀlpa till att diagnostisera hudtillstÄnd och diabetisk retinopati, öka Äterkallelsefrekvensen för överensstÀmmelse med lÀkemedel och analysera radiolograpporter för att upptÀcka ögonsjukdomar som glaukom.

InnehÄllsmoderering har ocksÄ sett betydande framsteg tack vare AI som tillÀmpas pÄ stora mÀngder mÀrkt data. Detta gÀller sÀrskilt för kÀnsliga Àmnen som vÄld eller hot om vÄld. Till exempel kan mÀnniskor lÀgga upp videor pÄ YouTube som hotar sjÀlvmord, som omedelbart mÄste upptÀckas och sÀrskiljas frÄn informationsvideor om sjÀlvmord.

En annan viktig anvÀndning av AI för datamÀrkning Àr att förstÄ röster med vilken accent eller ton som helst, för röstassistenter som Alexa eller Siri. Detta krÀver att man trÀnar en algoritm för att kÀnna igen manliga och kvinnliga talmönster baserat pÄ stora volymer mÀrkt ljud.

MÀnsklig datoranvÀndning för mÀrkning i skala

Allt detta vÀcker frÄgan: Hur skapar man mÀrkt data i stor skala?

Att manuellt mÀrka data för AI Àr en extremt arbetskrÀvande process. Det kan ta veckor eller mÄnader att mÀrka nÄgra hundra prover med detta tillvÀgagÄngssÀtt, och noggrannheten Àr inte sÀrskilt bra, sÀrskilt nÀr man stÄr inför nischmÀrkningsuppgifter. Dessutom kommer det att bli nödvÀndigt att uppdatera datauppsÀttningar och bygga större datauppsÀttningar Àn konkurrenterna för att förbli konkurrenskraftiga.

Det bÀsta sÀttet att skala datamÀrkning Àr med en kombination av maskininlÀrning och mÀnsklig expertis. Företag som Toloka, Appen och andra anvÀnder AI för att matcha rÀtt personer med rÀtt uppgifter, sÄ experterna gör det arbete som bara de kan göra. Detta gör det möjligt för företag att skala sina mÀrkningsinsatser. Vidare kan AI vÀga svaren frÄn olika respondenter efter kvaliteten pÄ svaren. Detta sÀkerstÀller att varje etikett har en stor chans att vara korrekt.

Med tekniker som dessa driver mÀrkt data upp en ny AI-revolution. Genom att kombinera AI med mÀnskligt omdöme kan företag skapa korrekta modeller av sin data. Dessa modeller kan sedan anvÀndas för att fatta bÀttre beslut som har en mÀtbar inverkan pÄ företag.

DataDecisionMakers

VĂ€lkommen till VentureBeat-communityt!

DataDecisionMakers Àr dÀr experter, inklusive de tekniska personer som arbetar med data, kan dela datarelaterade insikter och innovation.

Om du vill lĂ€sa om banbrytande idĂ©er och aktuell information, bĂ€sta praxis och framtiden för data- och datateknik, gĂ„ med oss ​​pĂ„ DataDecisionMakers.

Du kan till och med övervÀga att bidra med en egen artikel!

LÀs mer frÄn DataDecisionMakers