Google DeepMind sviluppa V2A che crea audio per i video AI

DeepMind, il laboratorio di ricerca sull'intelligenza artificiale di Google, ha rivelato che sta lavorando su uno strumento di intelligenza artificiale noto come V2A, in grado di creare audio e dialoghi per i video generati dall'intelligenza artificiale. V2A, che sta per video-to-audio, utilizza istruzioni basate su testo e pixel video per generare dialoghi, musica ed effetti sonori per i video.

Secondo DeepMind, gli effetti sonori e la musica generati corrispondono al tono e ai personaggi previsti del video. DeepMind ha inoltre spiegato che la tecnologia potrebbe aiutare a dare più vita ai video generati dall’intelligenza artificiale.

V2A abbina l'audio alle scene video

Sebbene la tecnologia di generazione audio non sia una novità, DeepMind afferma che il suo strumento V2A è il primo nel suo genere e abbina automaticamente l'audio al video.

"I modelli di generazione video stanno avanzando a un ritmo incredibile, ma molti sistemi attuali possono generare solo output silenziosi", ha scritto DeepMind in un post sul blog .

"Tramite l'addestramento su video, audio e annotazioni aggiuntive, la nostra tecnologia impara ad associare eventi audio specifici a varie scene visive, rispondendo al contempo alle informazioni fornite nelle annotazioni o trascrizioni."
Mente profonda.

L'azienda ha aggiunto che la sua tecnologia è automatica invece del lungo allineamento manuale che richiede la regolazione di suoni, video e tempi.

Secondo DeepMind, lo strumento V2A può essere utilizzato per generare un numero illimitato di colonne sonore per qualsiasi uscita video. Un suggerimento positivo può essere “definito per guidare l’output generato verso i suoni desiderati, o un suggerimento negativo per guidarlo lontano dai suoni indesiderati”.

"Questa flessibilità offre agli utenti un maggiore controllo sull'output di V2A, consentendo di sperimentare rapidamente diversi output audio e scegliere la migliore corrispondenza", ha affermato l'azienda.

Stiamo condividendo i progressi sulla nostra tecnologia generativa da video ad audio (V2A).
Può aggiungere audio a clip silenziose che si adattano all'acustica della scena, accompagnare l'azione sullo schermo e altro ancora.
Ecco 4 esempi: attiva l'audio. https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
– Google DeepMind (@GoogleDeepMind) 17 giugno 2024

Deepmind impassibile davanti alla concorrenza

L’ultima innovazione arriva quando DeepMind vuole consolidare la sua posizione dominante nel settore. All’inizio di quest’anno, la società britannica ElevenLabs, società britannica di generazione di voci basate sull’intelligenza artificiale, ha raggiunto un traguardo dopo che il suo round di finanziamento di serie B ha generato 80 milioni di dollari, valutando l’azienda oltre 1 miliardo di dollari, secondo Verdict .

L'azienda afferma che i suoi utenti hanno generato oltre 100 anni di audio. Afferma inoltre che il suo software audio è attualmente utilizzato dal 41% delle aziende Fortune 500.

Nonostante questa concorrenza, DeepMind ha indicato di non avere fretta di rilasciare la tecnologia al pubblico.

“Prima di considerare l’apertura dell’accesso al pubblico più ampio, la nostra tecnologia V2A sarà sottoposta a rigorose valutazioni e test di sicurezza”, ha affermato l’azienda.

DeepMind ha anche indicato che V2A è abbinabile a modelli di generazione video come Veo , che aiuta a creare effetti sonori realistici.

Reporting criptopolitico di Enacy Mapakame