YData lanserar datacentrerad AI-gemenskap för datavetare

YData lanserar datacentrerad AI-gemenskap för datavetare


Datachefer, datavetare och dataanalytiker av alla slag kan vara intresserade av en ny AI-support- och informationsgemenskap som debuterar idag.

Den specialintressegruppen Ă€r idĂ©n om en startup, YData, en sjĂ€lvbeskriven “datacentrerad AI-gemenskap” som skapade vad den hĂ€vdar Ă€r den första utvecklingsplattformen för datakvalitet för att pĂ„skynda utvecklingen av AI-lösningar. Det nya företaget syftar till att bryta ner barriĂ€rer för datavetenskapsteam, forskare och nybörjare för att skapa en “vĂ€nlig plats dĂ€r datakvalitetsfrĂ„gor diskuteras och löses”, sa VD och grundare Gonçalo Martins Ribeiro till VentureBeat via e-post.

Seattle-baserade YData Àr en kostnadsfri, vinstdrivande organisation av öppen kÀllkod-entusiaster och samhÀllsbyggare. Företagets affÀrsmodell Àr att sÀlja företagsstöd utöver de open source-baserade verktyg som det ger till samhÀllet, sa Ribeiro.

YDatas utvecklingsplattform följer ett datacentrerat tÀnkesÀtt genom att sammanföra de stora datavetenskapliga ramverken med proprietÀra verktyg för dataÄtkomst och profilering, syntetisk datagenerering och mÀrkning för att leverera bÀttre datakvalitet för AI. Högre datakvalitet innebÀr fÀrre fel, fördomar och en representativ datauppsÀttning som sÀkerstÀller att AI byggs ansvarsfullt. Organisationer har redan anammat företagets teknologi inom sektorerna för finansiella tjÀnster, verktyg och telekom, sa Ribeiro.

Forskning visar att det inte kommer att finnas nĂ„gon vanlig digital transformation utan data av hög kvalitet. Som ett erkĂ€nnande av det senaste paradigmskiftet i synsĂ€tt pĂ„ AI-utveckling – frĂ„n modellcentrerad till datacentrerad – skapade YData Data-Centric AI Community för att frĂ€mja gemenskapsdrivna och expertstyrda transformationer för bĂ€ttre AI-utveckling, sa Ribeiro.

YData har varit en pionjĂ€r inom community-driven AI-transformation, och lanserade Synthetic Data Community 2020. År 2021 öppnade YData tvĂ„ anmĂ€rkningsvĂ€rda bibliotek med öppen kĂ€llkod, ydata-synthetic och ydata-quality, och placerade dem pĂ„ GitHub, med det enda mĂ„let att se till att datavetenskapsteam har tillgĂ„ng till data av hög kvalitet.

YDatas Synthesizer anvÀnder den senaste tekniken för djupinlÀrning för att lÀra sig statistisk information frÄn den faktiska datan och hÀrma den pÄ en ny datamÀngd. YDatas Pandas-profilering hjÀlper dig att profilera rÄdata och förstÄ kvaliteten pÄ datan pÄ nÄgra rader kod.

“Vi förstĂ„r att ett samhĂ€lle som driver paradigmskiftet till datacentrerad AI Ă€r vĂ€sentligt, och vi siktar pĂ„ att fokusera pĂ„ dataprofilering, syntetisk data och datamĂ€rkning, de viktigaste smĂ€rtpunkterna för dataforskarna,” sa Ribeiro.

Med experter som Andrew Ng som ökade medvetenheten om det datacentrerade tillvĂ€gagĂ„ngssĂ€ttet och de första tĂ€vlingarna och workshops som genomfördes, stĂ„r Data-Centric AI Community som den saknade delen av den datacentrerade rörelsen, sa Ribeiro. “Vi tror att att ha kvalitetsdata verkligen Ă€r en spelomvandlare och att genom att skapa högkvalitativ data som liknar verklig data som frĂ„n början var otillgĂ€nglig kan oĂ€ndliga möjligheter lĂ„sas upp. Att kunna profilera och förstĂ„ data tidigt i utvecklingen Ă€r avgörande och kan spara mycket tid och pengar för organisationer”, sa han.

“Inte alla företag, forskare eller studenter har tillgĂ„ng till den mest vĂ€rdefulla data som vissa teknikjĂ€ttar gör. Eftersom ramverk för kodning av ML-algoritmer utvecklas snabbt, Ă€r det sĂ€kert att sĂ€ga att den knappaste resursen inom AI Ă€r data av hög kvalitet i stor skala. Vi mĂ„ste hitta sĂ€tt att förbĂ€ttra den data som anvĂ€nds för AI-utveckling. Data-Centric AI Community Ă€r ett steg mot att ta itu med det, sĂ€ger Ribeiro.

En Q&A med VD och grundare

VentureBeat: Är du den första utvecklargemenskapen som specialiserat sig pĂ„ AI-utveckling?

Ribeiro: Inte den första utvecklargemenskapen för AI, men den första utvecklargemenskapen fokuserade pÄ den nya trenden med datacentrerad AI. Efter det inledande buzz skapat av Andrew Ng och nÄgra initiativ som Resources Hub och Stanford och ETH-workshopen, Àr vi den första communityn som Àr centrerad kring detta Àmne, och vi tillhandahÄller mycket öppen kÀllkod [software] att hjÀlpa dataforskare att gÄ frÄn ett modellcentrerat till ett datacentrerat tillvÀgagÄngssÀtt.

VentureBeat: Vilka Àr de största utmaningarna med att ÄterstÀlla utvecklingstÀnket frÄn modellcentrerat till datacentrerat?

Ribeiro: Hittills följer de flesta tillgĂ€ngliga plattformar och verktyg den modellcentrerade strategin. Även vĂ€lkĂ€nda konferenser, som NeurIPS, fokuserade pĂ„ att optimera modeller. Det var först förra Ă„ret som NeurIPS lanserade ett spĂ„r för Dataset, vilket gjorde det klart att fokusering pĂ„ data – huvudsaken med AI – Ă€r den saknade biten som företag fortfarande kĂ€mpar med. MĂ„nga har utmaningar att övervinna, frĂ„n att Ă€ndra status quo för att bygga AI-lösningar, till bristen pĂ„ tillgĂ€ngliga verktyg, för att inte tala om utbildning och trĂ€ning. PĂ„ Data-Centric AI Community strĂ€var vi efter att hjĂ€lpa till att övervinna alla dessa utmaningar genom att frĂ€mja community-drivna och expertstyrda diskussioner, innehĂ„ll och nya projekt med öppen kĂ€llkod.

VentureBeat: BerÀtta nÄgot om det nya projektet som jag förmodligen inte vet.

Ribeiro: Data-Centric AI Community rÀknas redan med nÄgra bidragsgivare och projekt med öppen kÀllkod som kan hittas pÄ GitHub, eftersom datakvalitetsprofileringen och den syntetiska datagenereringen Àr nÄgra av de mest populÀra i vÀrlden.

VentureBeats uppdrag ska vara ett digitalt stadstorg för tekniska beslutsfattare att fÄ kunskap om transformativ företagsteknologi och handla. LÀs mer om medlemskap.