Metas senaste auditiva AI:er lovar en mer uppslukande AR/VR-upplevelse

concept of virtual reality technology, graphic of a teenage gamer wearing VR head-mounted playing game

The Metaverse, som Metas VD Mark Zuckerberg förestÀller sig det, kommer att vara en helt uppslukande virtuell upplevelse som konkurrerar med verkligheten, Ätminstone frÄn midjan och uppÄt. Men det visuella Àr bara en del av den övergripande Metaverse-upplevelsen.

“Att fĂ„ rumsligt ljud rĂ€tt Ă€r nyckeln till att leverera en realistisk kĂ€nsla av nĂ€rvaro i metaversen”, skrev Zuckerberg i ett fredagsblogginlĂ€gg. “Om du Ă€r pĂ„ en konsert, eller bara pratar med vĂ€nner runt ett virtuellt bord, fĂ„r en realistisk kĂ€nsla av var ljudet kommer ifrĂ„n att du kĂ€nner att du faktiskt Ă€r dĂ€r.”

Den konserten, noterar blogginlĂ€gget, kommer att lĂ„ta vĂ€ldigt annorlunda om den utförs i en fullstor konsertsal Ă€n i en gymnasiesal pĂ„ grund av skillnaderna mellan deras fysiska utrymmen och akustik. Som sĂ„dan samarbetar Metas AI och Reality Lab (MAIR, tidigare FAIR) med forskare frĂ„n UT Austin för att utveckla en trio av “förstĂ„elseuppgifter” för ljud med öppen kĂ€llkod som kommer att hjĂ€lpa utvecklare att bygga mer uppslukande AR- och VR-upplevelser med mer verklighetstrogen ljud.

Den första Ă€r MAIRs Visual Acoustic Matching-modell, som kan anpassa ett provljudklipp till en given miljö med bara en bild av utrymmet. Vill du höra hur NY Philharmonic skulle lĂ„ta i San Franciscos Boom Boom Room? Nu kan du. Tidigare simuleringsmodeller kunde Ă„terskapa ett rums akustik baserat pĂ„ dess layout – men bara om de exakta geometriska materialegenskaperna redan var kĂ€nda – eller frĂ„n ljud samplade inom utrymmet, vilket inte gav sĂ€rskilt exakta resultat.

MAIRs lösning Ă€r Visual Acoustic Matching-modellen, kallad AViTAR, som “lĂ€r sig akustisk matchning frĂ„n in-the-wild webbvideor, trots deras brist pĂ„ akustiskt omatchat ljud och omĂ€rkta data”, enligt inlĂ€gget.

“Ett framtida anvĂ€ndningsfall vi Ă€r intresserade av handlar om att Ă„teruppleva tidigare minnen”, skrev Zuckerberg och satsade pĂ„ nostalgi. “FörestĂ€ll dig att kunna ta pĂ„ dig ett par AR-glasögon och se ett föremĂ„l med möjligheten att spela upp ett minne som Ă€r associerat med det, som att plocka upp en tutu och se ett hologram av ditt barns balettframtrĂ€dande. Ljudet tar bort efterklangen och fĂ„r minnet att lĂ„ta precis som nĂ€r du upplevde det, nĂ€r du sitter pĂ„ din exakta plats i publiken.”

MAIRs Visually-Informed Dereverberation-lĂ€ge (VIDA), Ă„ andra sidan, kommer att ta bort ekoeffekten frĂ„n att spela ett instrument i en stor, öppen plats som en tunnelbanestation eller katedral. Du kommer bara höra fiolen, inte efterklangen av den som studsar frĂ„n avlĂ€gsna ytor. Specifikt “lĂ€r den sig att ta bort efterklang baserat pĂ„ bĂ„de de observerade ljuden och den visuella strömmen, vilket avslöjar ledtrĂ„dar om rumsgeometri, material och högtalarplatser”, förklarade inlĂ€gget. Denna teknik skulle kunna anvĂ€ndas för att mer effektivt isolera sĂ„ng och talade kommandon, vilket gör dem lĂ€ttare att förstĂ„ för bĂ„de mĂ€nniskor och maskiner.

VisualVoice gör samma sak som VIDA men för röster. Den anvĂ€nder bĂ„de visuella och ljudsignaler för att lĂ€ra sig att separera röster frĂ„n bakgrundsljud under sina sjĂ€lvövervakade trĂ€ningspass. Meta förvĂ€ntar sig att denna modell kommer att fĂ„ mycket arbete i maskinförstĂ„elseapplikationer och för att förbĂ€ttra tillgĂ€ngligheten. TĂ€nk, mer exakta undertexter, att Siri förstĂ„r din förfrĂ„gan Ă€ven nĂ€r rummet inte Ă€r helt tyst eller har akustiken i ett virtuellt chattrum som skiftar nĂ€r mĂ€nniskor som talar rör sig i det digitala rummet. Återigen, ignorera bara bristen pĂ„ ben.

“Vi förestĂ€ller oss en framtid dĂ€r mĂ€nniskor kan ta pĂ„ sig AR-glasögon och Ă„teruppleva ett holografiskt minne som ser ut och lĂ„ter precis som de upplevde det frĂ„n sin utsiktspunkt, eller kĂ€nner sig uppslukade av inte bara grafiken utan Ă€ven ljuden nĂ€r de spelar spel i en virtuell vĂ€rld”, skrev Zuckerberg och noterade att AViTAR och VIDA bara kan tillĂ€mpa sina uppgifter pĂ„ den ena bilden de utbildats för och kommer att behöva mycket mer utveckling innan de slĂ€pps offentligt. “Dessa modeller för oss Ă€nnu nĂ€rmare de multimodala, uppslukande upplevelser vi vill bygga i framtiden.”