Hur DALL-E 2 kunde lösa stora utmaningar med datorseende

Hur DALL-E 2 kunde lösa stora utmaningar med datorseende


OpenAI har nyligen slÀppt DALL-E 2, en mer avancerad version av DALL-E, en genialisk multimodal AI som kan generera bilder enbart baserat pÄ textbeskrivningar. DALL-E 2 gör det genom att anvÀnda avancerade djupinlÀrningstekniker som förbÀttrar kvaliteten och upplösningen pÄ de genererade bilderna och ger ytterligare möjligheter som att redigera en befintlig bild eller skapa nya versioner av den.

MĂ„nga AI-entusiaster och forskare twittrade om hur fantastisk DALL-E 2 Ă€r pĂ„ att generera konst och bilder ur ett tunt ord, men i den hĂ€r artikeln skulle jag vilja utforska en annan applikation för denna kraftfulla text-till-bild-modell – att generera datauppsĂ€ttningar att lösa datorseendes största utmaningar.

Bildtext: En DALL-E 2-genererad bild. “En kanindetektiv sitter pĂ„ en parkbĂ€nk och lĂ€ser en tidning i en viktoriansk miljö.” KĂ€lla: Twitter

Datorsynens brister

Computer vision AI-applikationer kan variera frÄn att upptÀcka godartade tumörer i CT-skanningar till att möjliggöra sjÀlvkörande bilar. Men det som Àr gemensamt för alla Àr behovet av riklig data. En av de mest framtrÀdande prestationsprediktorerna för en djupinlÀrningsalgoritm Àr storleken pÄ den underliggande datamÀngden som den trÀnades pÄ. JFT-datauppsÀttningen, som Àr en intern Google-datauppsÀttning som anvÀnds för utbildning av bildklassificeringsmodeller, bestÄr till exempel av 300 miljoner bilder och mer Àn 375 miljoner etiketter.

TĂ€nk pĂ„ hur en bildklassificeringsmodell fungerar: Ett neuralt nĂ€tverk omvandlar pixelfĂ€rger till en uppsĂ€ttning siffror som representerar dess egenskaper, Ă€ven kĂ€nd som “inbĂ€ddning” av en ingĂ„ng. Dessa funktioner mappas sedan till utdatalagret, som innehĂ„ller en sannolikhetspoĂ€ng för varje klass av bilder som modellen Ă€r tĂ€nkt att detektera. Under trĂ€ning försöker det neurala nĂ€tverket lĂ€ra sig de bĂ€sta egenskapsrepresentationerna som skiljer mellan klasserna, t.ex. en spetsiga öronfunktion för en Dobermann vs. en pudel.

Helst skulle maskininlĂ€rningsmodellen lĂ€ra sig att generalisera över olika ljusförhĂ„llanden, vinklar och bakgrundsmiljöer. Men oftare Ă€n inte lĂ€r sig modeller för djupinlĂ€rning fel representationer. Till exempel kan ett neuralt nĂ€tverk dra slutsatsen att blĂ„ pixlar Ă€r en del av “frisbee”-klassen eftersom alla bilder av en frisbee som den har sett under trĂ€ningen var pĂ„ stranden.

Ett lovande sĂ€tt att lösa sĂ„dana brister Ă€r att öka storleken pĂ„ trĂ€ningssetet, t.ex. genom att lĂ€gga till fler bilder pĂ„ frisbees med olika bakgrunder. ÄndĂ„ kan denna övning visa sig vara en kostsam och lĂ„ngdragen anstrĂ€ngning.

Först skulle du behöva samla in alla nödvÀndiga prover, t.ex. genom att söka online eller genom att ta nya bilder. Sedan mÄste du se till att varje klass har tillrÀckligt med etiketter för att förhindra att modellen över- eller underpassar vissa. Slutligen skulle du behöva mÀrka varje bild och ange vilken bild som motsvarar vilken klass. I en vÀrld dÀr mer data översÀtts till en bÀttre presterande modell, fungerar dessa tre steg som en flaskhals för att uppnÄ toppmoderna prestanda.

Men Ă€ven dĂ„ kan datorseendemodeller lĂ€tt luras, sĂ€rskilt om de attackeras med motstridiga exempel. Gissa vad som Ă€r ett annat sĂ€tt att mildra motstridiga attacker? Du gissade rĂ€tt – mer mĂ€rkta, vĂ€lutvalda och varierande data.

Bildtext: OpenAIs CLIP klassificerade felaktigt ett Àpple som en iPod pÄ grund av en textetikett. KÀlla: OpenAI

Ange DALL-E 2

LĂ„t oss ta ett exempel pĂ„ en hundrasklassificerare och en klass som det Ă€r lite svĂ„rare att hitta bilder för – dalmatiska hundar. Kan vi anvĂ€nda DALL-E för att lösa vĂ„rt problem med brist pĂ„ data?

ÖvervĂ€g att tillĂ€mpa följande tekniker, alla drivna av DALL-E 2:

AnvĂ€nd vanilj. Mata in klassnamnet som en del av en textuppmaning till DALL-E och lĂ€gg till de genererade bilderna till den klassens etiketter. Till exempel, “En dalmatisk hund i parken som jagar en fĂ„gel.”Olika miljöer och stilar. För att förbĂ€ttra modellens förmĂ„ga att generalisera, anvĂ€nd uppmaningar med olika miljöer samtidigt som du behĂ„ller samma klass. Till exempel, “En dalmatisk hund pĂ„ stranden som jagar en fĂ„gel.” Detsamma gĂ€ller stilen pĂ„ den genererade bilden, t.ex. “En dalmatisk hund i parken som jagar en fĂ„gel i stil med en tecknad serie.”Motstridiga prover. AnvĂ€nd klassnamnet för att skapa en datauppsĂ€ttning av motstridiga exempel. Till exempel “En dalmatisk bil.”Variationer. En av DALL-E:s nya funktioner Ă€r möjligheten att generera flera varianter av en ingĂ„ngsbild. Den kan ocksĂ„ ta en andra bild och smĂ€lta samman de tvĂ„ genom att kombinera de mest framtrĂ€dande aspekterna av var och en. Man kan sedan skriva ett skript som matar alla datauppsĂ€ttningens befintliga bilder för att generera dussintals varianter per klass.InmĂ„lning. DALL-E 2 kan ocksĂ„ göra realistiska redigeringar av befintliga bilder, lĂ€gga till och ta bort element samtidigt som skuggor, reflektioner och texturer beaktas. Detta kan vara en stark dataökningsteknik för att vidareutbilda och förbĂ€ttra den underliggande modellen.

Förutom att generera mer utbildningsdata, Àr den stora fördelen med alla ovanstÄende tekniker att de nygenererade bilderna redan Àr mÀrkta, vilket tar bort behovet av en mÀnsklig mÀrkningsarbetare.

Medan bildgenererande tekniker som generativa motstridiga nĂ€tverk (GAN) har funnits ganska lĂ€nge, skiljer DALL-E 2 i sina 1024×1024 högupplösta generationer, dess multimodalitetskaraktĂ€r att förvandla text till bilder och dess starka semantiska konsistens, dvs förstĂ„ relationen mellan olika objekt i en given bild.

Automatisera skapandet av dataset med GPT-3 + DALL-E

DALL-E:s input Àr en textuppmaning av bilden vi vill generera. Vi kan utnyttja GPT-3, en textgenererande modell, för att generera dussintals textuppmaningar per klass som sedan matas in i DALL-E, vilket i sin tur kommer att skapa dussintals bilder som kommer att lagras per klass.

Vi kan till exempel generera uppmaningar som inkluderar olika miljöer för vilka vi skulle vilja att DALL-E skapar bilder av hundar.

Bildtext: En GPT-3-genererad prompt som ska anvÀndas som indata till DALL-E. KÀlla: författare

Med det hĂ€r exemplet och en mallliknande mening som “A [class_name] [gpt3_generated_actions],” kunde vi mata DALL-E med följande uppmaning: “En dalmatiner som lĂ€gger sig pĂ„ golvet.” Detta kan optimeras ytterligare genom att finjustera GPT-3 för att producera datauppsĂ€ttningstexter som den i OpenAI Playground-exemplet ovan.

För att ytterligare öka förtroendet för de nyligen tillagda proverna kan man stÀlla in en sÀkerhetströskel för att bara vÀlja de generationer som har passerat en specifik rankning, eftersom varje genererad bild rankas av en bild-till-text-modell som kallas CLIP.

BegrÀnsningar och begrÀnsningar

Om den inte anvÀnds försiktigt kan DALL-E generera felaktiga bilder eller bilder av snÀv omfattning, exkludera specifika etniska grupper eller bortse frÄn egenskaper som kan leda till partiskhet. Ett enkelt exempel skulle vara en ansiktsdetektor som bara trÀnades pÄ bilder av mÀn. Dessutom kan anvÀndning av bilder genererade av DALL-E innebÀra en betydande risk inom specifika domÀner som patologi eller sjÀlvkörande bilar, dÀr kostnaden för ett falskt negativt Àr extremt.

DALL-E 2 har fortfarande vissa begrÀnsningar, med kompositionalitet som en av dem. Att förlita sig pÄ uppmaningar som till exempel förutsÀtter korrekt placering av objekt kan vara riskabelt.

Bildtext: DALL-E kÀmpar fortfarande med nÄgra uppmaningar. KÀlla: Twitter

SÀtt att mildra detta inkluderar mÀnsklig provtagning, dÀr en mÀnsklig expert kommer att slumpmÀssigt vÀlja prover för att kontrollera deras giltighet. För att optimera en sÄdan process kan man följa ett aktivt lÀrande dÀr bilder som fÄtt lÀgst CLIP-ranking för en given bildtext prioriteras för granskning.

Slutord

DALL-E 2 Ă€r Ă€nnu ett spĂ€nnande forskningsresultat frĂ„n OpenAI som öppnar dörren till nya typer av applikationer. Att generera enorma datamĂ€ngder för att hantera en av datorvisionens största flaskhalsar – data Ă€r bara ett exempel.

OpenAI signalerar att det kommer att slÀppa DALL-E nÄgon gÄng under den kommande sommaren, troligen i en gradvis release med en förhandsgranskning för intresserade anvÀndare. De som inte kan vÀnta, eller som inte kan betala för denna tjÀnst, kan mixtra med alternativ med öppen kÀllkod som DALL-E Mini (grÀnssnitt, Playground repository).

Även om affĂ€rsfallet för mĂ„nga DALL-E-baserade applikationer kommer att bero pĂ„ prissĂ€ttningen och policyn som OpenAI anger för sina API-anvĂ€ndare, Ă€r de alla sĂ€kra pĂ„ att ta bildgenereringen ett stort steg framĂ„t.

DataDecisionMakers

VĂ€lkommen till VentureBeat-communityt!

DataDecisionMakers Àr dÀr experter, inklusive tekniska personer som arbetar med data, kan dela datarelaterade insikter och innovation.

Om du vill lĂ€sa om banbrytande idĂ©er och aktuell information, bĂ€sta praxis och framtiden för data- och datateknik, gĂ„ med oss ​​pĂ„ DataDecisionMakers.

Du kan till och med övervÀga att bidra med en egen artikel!

LÀs mer frÄn DataDecisionMakers