Nyheter - OpenAI Point E: Lag en 3D-punktsky fra komplekse bølgeformer på minutter på en enkelt GPU

I en ny artikkel Point-E: Et system for generering av 3D-punktskyer fra komplekse signaler, introduserer forskningsteamet for OpenAI Point E, et 3D-punktskytekst-betinget syntesesystem som bruker diffusjonsmodeller for å lage varierte og komplekse 3D-former drevet av kompleks tekst hint.på minutter på én enkelt GPU.
Den fantastiske ytelsen til dagens toppmoderne bildegenereringsmodeller har stimulert forskning innen generering av 3D-tekstobjekter.Men i motsetning til 2D-modeller, som kan generere utdata på minutter eller til og med sekunder, krever objektgenererende modeller vanligvis flere timer med GPU-arbeid for å generere en enkelt prøve.
I en ny artikkel Point-E: Et system for generering av 3D-punktskyer fra komplekse signaler, presenterer OpenAI-forskerteamet Point·E, et tekstuell betinget syntesesystem for 3D-punktskyer.Denne nye tilnærmingen bruker en forplantningsmodell for å lage varierte og komplekse 3D-former fra komplekse tekstsignaler på bare et minutt eller to på en enkelt GPU.
Teamet er fokusert på utfordringen med å konvertere tekst til 3D, noe som er avgjørende for å demokratisere 3D-innholdsskaping for applikasjoner fra den virkelige verden, fra virtuell virkelighet og spill til industriell design.Eksisterende metoder for å konvertere tekst til 3D faller inn i to kategorier, som hver har sine ulemper: 1) generative modeller kan brukes til å generere sampler effektivt, men kan ikke skalere effektivt for mangfoldige og komplekse tekstsignaler;2) en forhåndstrent tekst-bildemodell for å håndtere komplekse og varierte tekstsignaler, men denne tilnærmingen er beregningsintensiv og modellen kan lett sette seg fast i lokale minima som ikke samsvarer med meningsfulle eller sammenhengende 3D-objekter.
Derfor utforsket teamet en alternativ tilnærming som tar sikte på å kombinere styrken til de to ovennevnte tilnærmingene, ved å bruke en tekst-til-bilde-diffusjonsmodell trent på et stort sett med tekst-bilde-par (som lar den håndtere forskjellige og komplekse signaler) og en 3D-bildediffusjonsmodell trent på et mindre sett med tekst-bilde-par.bilde-3D par datasett.Tekst-til-bilde-modellen prøver først inngangsbildet for å lage en enkelt syntetisk representasjon, og bilde-til-3D-modellen lager en 3D-punktsky basert på det valgte bildet.
Kommandoens generative stabel er basert på nylig foreslåtte generative rammeverk for betinget generering av bilder fra tekst (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).De bruker en GLIDE-modell med 3 milliarder GLIDE-parametere (Nichol et al., 2021), finjustert på gjengitte 3D-modeller, som deres tekst-til-bilde-transformasjonsmodell, og et sett med diffusjonsmodeller som genererer RGB-punktskyer som deres transformasjonsmodell.bilder til bilde.3D-modeller.
Mens tidligere arbeid brukte 3D-arkitekturer for å behandle punktskyer, brukte forskerne en enkel transduserbasert modell (Vaswani et al., 2017) for å forbedre effektiviteten.I deres diffusjonsmodellarkitektur blir punktskybilder først matet inn i en forhåndstrent ViT-L/14 CLIP-modell, og deretter mates utgangsmaskene inn i omformeren som markører.
I sin empiriske studie sammenlignet teamet den foreslåtte Point·E-metoden med andre generative 3D-modeller på scoringssignaler fra COCO-objektdeteksjon, segmentering og signaturdatasett.Resultatene bekrefter at Point·E er i stand til å generere mangfoldige og komplekse 3D-former fra komplekse tekstsignaler og fremskynde inferenstiden med en til to størrelsesordener.Teamet håper arbeidet deres vil inspirere til videre forskning på 3D-tekstsyntese.
En forhåndsopplært punktskyformidlingsmodell og evalueringskode er tilgjengelig på prosjektets GitHub.Document Point-E: Et system for å lage 3D-punktskyer fra komplekse ledetråder er på arXiv.
Vi vet at du ikke vil gå glipp av noen nyheter eller vitenskapelige oppdagelser.Abonner på vårt populære Synced Global AI Weekly-nyhetsbrev for å motta ukentlige AI-oppdateringer.

Innleggstid: 28. desember 2022