La robotica sul dispositivo di Gemini supera gli altri modelli di Google

Google DeepMind ha presentato martedì un nuovo modello linguistico chiamato Gemini Robotics On-Device. L'azienda ha rivelato che il modello può eseguire attività localmente sui robot senza una connessione internet.

Il nuovo modello, che si basa sul precedente modello di intelligenza artificiale Gemini Robotics rilasciato a marzo, è in grado di controllare i movimenti di un robot. Google ha anche riconosciuto che il modello di visione-linguaggio-azione (VLA) è sufficientemente piccolo ed efficiente da poter essere eseguito direttamente su un robot. Secondo l'azienda, gli sviluppatori possono controllare e perfezionare il modello per soddisfare diverse esigenze utilizzando prompt in linguaggio naturale.

La robotica sul dispositivo supera gli altri modelli di Google

Con Gemini Robotics On-Device, integriamo la potente intelligenza artificiale direttamente nei robot.
È il nostro primo modello di visione-linguaggio-azione che aiuta a rendere i robot più veloci, altamente efficienti e adattabili a nuovi compiti e ambienti, senza bisogno di una connessione Internet costante. pic.twitter.com/1Y21D3cF5t
— Google DeepMind (@GoogleDeepMind) 24 giugno 2025

Carolina Parada, responsabile della robotica di Google DeepMind, ha sostenuto che il modello originale di Gemini Robotics utilizza un approccio ibrido, che gli consente di operare sia sul dispositivo che sul cloud. Ha affermato che con il nuovo modello, disponibile solo per il dispositivo, gli utenti possono accedere alle funzionalità offline quasi con la stessa efficacia del modello di punta.

L'azienda tecnologica afferma che il modello offre prestazioni simili a quelle del modello Gemini Robotics basato su cloud nei benchmark. Google ha anche affermato che supera altre modalità on-device nei benchmark generali, sebbene non abbia specificato il nome di questi modelli.

Il modello ibrido di Gemini Robotics è ancora più potente, ma siamo davvero sorpresi dalla solidità di questo modello integrato nel dispositivo. Lo considererei un modello base o un modello per applicazioni con scarsa connettività.
-Carolina Parada, responsabile della robotica presso Google DeepMind.

L'azienda ha illustrato nella demo i robot che eseguono il modello locale, aprendo borse e piegando vestiti. Google ha riconosciuto che, sebbene il modello fosse stato addestrato per i robot ALOHA, lo ha successivamente adattato per funzionare su un robot Franka FR3 a due bracci e sul robot umanoide Apollo di Apptronik.

L'azienda tecnologica afferma che il Franka FR3 a doppio braccio è riuscito ad affrontare scenari e oggetti mai visti prima, come l'assemblaggio su un nastro trasportatore industriale. L'azienda ha affermato che gli sviluppatori possono mostrare ai robot da 50 a 100 dimostrazioni di attività per addestrarli a nuove mansioni utilizzando i modelli del simulatore fisico MuJoCo.

Google DeepMind ha anche menzionato il rilascio di un kit di sviluppo software chiamato Gemini Robotics SDK. L'azienda ha rivelato che il suo Robotics SDK fornisce gli strumenti necessari per l'intero ciclo di vita dei modelli Gemini Robotics, inclusi l'accesso ai checkpoint, la distribuzione di un modello, la valutazione del modello sul robot e nella simulazione, il caricamento dei dati e la sua messa a punto. L'azienda ha inoltre rivelato che il suo modello Gemini Robotics integrato nel dispositivo e il suo SDK saranno disponibili a un gruppo di tester fidati, mentre Google continua a lavorare per ridurre al minimo i rischi per la sicurezza.

Le aziende tecnologiche si uniscono alla corsa alla robotica

Anche altre aziende che utilizzano modelli di intelligenza artificiale stanno mostrando interesse per la robotica. Nvidia sta sviluppando una piattaforma per creare modelli fondamentali per gli umanoidi. Il CEO dell'azienda, Jensen Huang, ha osservato che la creazione di modelli fondamentali per robot umanoidi generici è uno dei problemi più stimolanti da risolvere nell'ambito dell'intelligenza artificiale odierna.

Huang ha sostenuto che il fattore umanoide è uno degli argomenti più controversi nel mondo della robotica al momento. Ha riconosciuto che sta raccogliendo capitali di rischio a palate, generando al contempo un enorme scetticismo.

Nvidia ha anche promosso l'innovazione robotica attraverso iniziative come Isaac e Jetson. Lo scorso marzo, durante la conferenza annuale per sviluppatori GTC, l'azienda si è unita alla corsa agli umanoidi con il Progetto GROOT.

Nvidia ha definito la nuova piattaforma come un modello di base multiuso per robot umanoidi. L'azienda ha affermato che GROOT supporterà anche il nuovo hardware di Nvidia.

Hugging Face non si limita a sviluppare modelli e set di dati aperti per la robotica, ma lavora anche sui robot. L'azienda ha presentato all'inizio di questo mese un modello OpenAI per la robotica chiamato SmolVLA.

L'azienda afferma che il modello è addestrato su set di dati condivisi dalla comunità e supera modelli robotici molto più ampi, sia in ambienti virtuali che reali. Hugging Face ha anche rivelato che SmolVLA mira a democratizzare l'accesso ai modelli di visione-linguaggio-azione (VLA) e ad accelerare la ricerca verso agenti robotici generalisti.

L'anno scorso, l'azienda ha lanciato LeRobot, una raccolta di modelli, set di dati e strumenti incentrati sulla robotica. Più recentemente, Hugging Face ha acquisito Pollen Robotics, una startup di robotica con sede in Francia, e ha lanciato sul mercato diversi sistemi robotici a basso costo, inclusi umanoidi.

Cryptopolitan Academy: Vuoi far crescere i tuoi soldi nel 2025? Scopri come farlo con la DeFi nel nostro prossimo corso online. Prenota il tuo posto