Questo modello di intelligenza artificiale generativa può trasformare l’industria dei giochi

Nel mondo in rapida evoluzione dell’intelligenza artificiale generativa, la sfida di creare oggetti 3D da immagini 2D in modo coerente è stata persistente. Tuttavia, ricercatori di diverse università hanno annunciato un progresso significativo: SyncDreamer. Questo innovativo strumento di intelligenza artificiale generativa utilizza un modello di diffusione unico per generare più prospettive 2D di un oggetto da una sola immagine.

In che modo l'intelligenza artificiale generativa di SyncDreamer ridefinisce la progettazione 3D

I sistemi di intelligenza artificiale generativa, in particolare modelli di diffusione come Stable Diffusion, DALL-E e Midjourney , sono stati sviluppati principalmente per prevedere l'aspetto di un'immagine quando su di essa viene stratificato il rumore. Il processo, che prevede la transizione di un'immagine dallo stato chiaro al rumore completo e quindi l'inversione del processo, consente a questi modelli di produrre immagini complesse da modelli di rumore casuali. Inoltre, i modelli di intelligenza artificiale generativa da testo a immagine si sono espansi su questo aspetto, imparando da miliardi di coppie immagine-descrizione per creare immagini da segnali testuali.

Tuttavia, l’ostacolo della coerenza multiview ha ostacolato questi progressi. Nonostante la loro abilità, i modelli di diffusione trovano difficile acquisire un’immagine 2D e rappresentare lo stesso oggetto da una nuova prospettiva.

I tentativi precedenti di colmare questo divario si basavano sulla generazione di modelli di diffusione per oggetti 3D, un compito che richiedeva grandi volumi di oggetti 3D etichettati. Un’altra strategia incorporava campi di radianza neurale (NeRF) che possono generare forme 3D da foto 2D. Tuttavia, questa tecnica necessita di descrizioni testuali aggiuntive e di generazione di oggetti, un processo che non solo è intenso dal punto di vista computazionale ma richiede anche un significativo input umano.

Inserisci SyncDreamer. Invece di iniziare direttamente a creare un'immagine 3D, SyncDreamer prende un'immagine 2D e genera angoli 2D alternativi dello stesso soggetto. Questi output possono quindi essere utilizzati da modelli come NeRF per formare la rappresentazione 3D.

Centrale nella funzione di SyncDreamer è la sua progettazione per modellare la distribuzione di probabilità condivisa di immagini multivista. Utilizzando più predittori di rumore, SyncDreamer può generare più immagini contemporaneamente. Questo approccio coordinato garantisce la coerenza tra tutte le immagini generate.

Applicazioni e praticità

Dalle rappresentazioni fotorealistiche agli schizzi fatti a mano, SyncDreamer ha mostrato la sua adattabilità in attività come la ricostruzione della scena o le fasi iniziali della progettazione. I ricercatori hanno sottolineato la capacità del sistema di generare immagini che sono semanticamente allineate con l'originale e mantengono la coerenza multiview sia nel colore che nella forma.

Un notevole vantaggio di questo modello di intelligenza artificiale generativa risiede nella sua collaborazione con altri modelli generativi. Associandosi a modelli testo-immagine come Stable Diffusion o DALL-E, i designer possono produrre e perfezionare opportunamente i concetti. Questo processo coeso, che riduce il carico di lavoro per gli artisti 3D, offre vantaggi sostanziali per lo sviluppo di giochi e la creazione di ambienti virtuali.

Dietro l'architettura di SyncDreamer

Uno sguardo all'architettura di SyncDreamer rivela il suo modello di diffusione multiforme, che allinea la generazione di ciascuna visualizzazione. Il processo si basa sulla riduzione del rumore dell'input utilizzando un modello UNet. Per garantire la coerenza multivista, un modulo specializzato assembla le caratteristiche delle immagini e le mappa in 3D. Una rete neurale convoluzionale tridimensionale (CNN) cattura quindi queste caratteristiche spaziali e le proietta nello spazio bidimensionale. Questo disegno intricato, definito dai ricercatori come “la caratteristica 3D dell'attenzione UNet”, svolge un ruolo cruciale nel mantenere l'accuratezza e la coerenza del modello.

Il sistema è stato perfezionato sul set di dati Objaverse, comprendente circa 800.000 oggetti e scene 3D etichettati. La vasta gamma di stili artistici, dagli schizzi ai dipinti a inchiostro, su cui SyncDreamer è stato testato non fa altro che sottolineare l’ampio potenziale dell’intelligenza artificiale generativa nei prossimi anni.

Inizia a scrivere il termine ricerca qua sopra e premi invio per iniziare la ricerca. Premi ESC per annullare.

Torna in alto