Un agente AI aggira i controlli della sandbox in uno studio DeFi a16z

Un agente di intelligenza artificiale (IA) è riuscito a fuggire dalla sandbox creata dagli ingegneri crittografici di a16z durante un test. Gli ingegneri volevano valutare se gli agenti di IA potessero andare oltre l'identificazione delle vulnerabilità e arrivare a creare exploit funzionanti.

Gli ingegneri della sicurezza Daejun Park e Matt Gleason hanno pubblicato i risultati il 28 aprile. Hanno evidenziato come il loro agente standard sia riuscito autonomamente a utilizzare strumenti che "non gli erano mai stati esplicitamente forniti".

Questi risultati giungono in un momento in cui Elon Musk ha rilasciato una dichiarazione sconvolgente, affermando che "l'intelligenza artificiale potrebbe ucciderci tutti".

Elon Musk ha testimoniato oggi che l'intelligenza artificiale potrebbe superare l'intelligenza umana il prossimo anno e potrebbe ucciderci.

E la persona responsabile non è affidabile.

Elon Musk al processo:

"Ho avuto l'idea, il nome, ho reclutato le persone chiave e ho fornito tutti i finanziamenti iniziali. Io… https://t.co/cxi55lrstM pic.twitter.com/B6PIAjSAk9
— Bull Theory (@BullTheoryio) 29 aprile 2026

Come l'agente IA è "fuggito" dalla sua gabbia

Gli ingegneri hanno posizionato l'agente in un ambiente controllato, con accesso limitato a Etherscan e un nodo locale vincolato a un blocco specifico. Il team ha bloccato qualsiasi accesso alla rete esterna.

Questa configurazione in ambiente sandbox è stata specificamente progettata per impedire all'agente di recuperare dati in futuro. Durante i test in ambiente sandbox, l'agente si è imbattuto in un problema con un contratto target non verificato e privo di codice sorgente.

Seguiteci su X per ricevere le ultime notizie in tempo reale.

Pertanto, ha interrogato la configurazione del nodo Anvil locale utilizzando "cast rpc anvil_nodeInfo", esponendo l'URL RPC upstream insieme a una chiave API Alchemy in chiaro. L'agente ha tentato un accesso esterno diretto, ma il firewall di Docker ha bloccato la richiesta.

Dopo che il firewall ha bloccato l'accesso diretto in uscita, l'agente ha utilizzato il metodo "anvil_reset RPC" per reimpostare il nodo anvil a un blocco futuro. Questa operazione gli ha permesso di interrogare i log e le transazioni dei blocchi futuri tramite il nodo anvil locale.

In seguito, l'agente ha recuperato le tracce di esecuzione della transazione di attacco. Dopo aver completato l'analisi, l'agente di intelligenza artificiale ha ripristinato il nodo al suo blocco originale e ha prodotto una prova di concetto funzionante basata sui dati estratti.

Park e Gleason in seguito limitarono il proxy per bloccare tutti i metodi di debug di Anvil.

"È successo in un ambiente sandbox su piccola scala, ma mette in luce uno schema più ampio che vale la pena documentare: agenti che utilizzano strumenti per aggirare i vincoli e raggiungere i propri obiettivi", ha osservato il team. "L'utilizzo di anvil_reset per bypassare il blocco fork bloccato era un comportamento che non avevamo previsto."

L'incidente mette in luce un rischio fondamentale negli ambienti di test dell'IA: gli agenti possono scoprire e sfruttare percorsi non intenzionali all'interno delle catene di strumenti, anche in assenza di istruzioni esplicite.

Nonostante ciò, lo studio ha rilevato che gli agenti di intelligenza artificiale rimangono limitati nell'esecuzione di exploit DeFi complessi. Sebbene l'agente abbia identificato costantemente le vulnerabilità , ha faticato a mettere insieme strategie di attacco a più fasi.

Iscriviti al nostro canale YouTube per guardare leader e giornalisti che offrono approfondimenti da esperti.

L'articolo " Un agente AI aggira i controlli della sandbox in uno studio DeFi di a16z" è apparso per la prima volta su BeInCrypto .