Strumento di filigrana open source di Google che consente agli utenti di identificare il testo generato dall’intelligenza artificiale

Google ha reso open source lo strumento di filigrana del testo SynthID, una tecnologia che consente agli utenti di rilevare facilmente se il testo è originale o generato dall'intelligenza artificiale.

Secondo Google, il rilevatore di testo generato dall'intelligenza artificiale può essere scaricato dalla piattaforma AI Hugging Face e dal Responsible GenAI Toolkit aggiornato di Google. Le filigrane sono diventate significative con il boom dell’intelligenza artificiale generativa negli ultimi due anni poiché gli LLM vengono manipolati per diffondere disinformazione e disinformazione, nonché contenuti sessuali non consensuali e per scopi dannosi.

Lo sviluppo avviene in quanto vi è urgenza di sviluppare tali strumenti con l’ Agenzia delle forze dell’ordine dell’Unione Europea preoccupata che il 90% del testo online potrebbe essere sintetico entro il 2026, rendendo la propaganda, la frode e l’inganno diffusi.

I ricercatori di Google spiegano il loro strumento di watermarking

In un post sulla piattaforma X , il gigante dei motori di ricerca ha rivelato che sta rendendo open source il suo strumento di filigrana SynthID Text affermando che sarà "disponibile gratuitamente per aziende e sviluppatori in quanto li aiuterà a identificare i loro contenuti generati dall'intelligenza artificiale".

Pushmeet Kohli , vicepresidente della ricerca presso Google DeepMind e coautore di un documento di ricerca di Google DeepMind, ha dichiarato: "Il sistema non compromette le funzioni dei modelli di intelligenza artificiale, ma li migliora semplicemente".

Immagini e video sono stati centrali nelle discussioni sulle credenziali dei contenuti e le filigrane sono state designate come la soluzione necessaria per combattere i deepfake.

Al centro di queste discussioni è stata centrale anche la Coalition for Content Provenance and Authenticity (C2PA), una collaborazione tra aziende tecnologiche e importanti media per elaborare un sistema per allegare metadati crittografati per indicare file di immagini e video generati dall'intelligenza artificiale.

Secondo il documento di ricerca di Google DeepMinds, SynthID Text interferisce durante la generazione poiché altera alcune parole emesse da un chatbot per renderle chiare a un rilevatore SynthID ma quasi invisibili agli esseri umani.

"Modifiche come queste introducono una firma statistica nel testo generato dall'intelligenza artificiale e durante la fase di rilevamento della filigrana, la firma può essere misurata per vedere se il testo proveniva da un modello di intelligenza artificiale tramite il LLM con filigrana", hanno scritto i ricercatori nel documento.

Generando frasi parola per parola, è così che funzionano i LLM che alimentano i chatbot, poiché scelgono la probabile parola successiva a seconda del contesto di ciò che è venuto prima. Attraverso l'assegnazione casuale di punteggi numerici alle parole candidate, LLM produce parole con un punteggio più alto. Le filigrane verranno inserite su una parte di testo che sarebbe stata analizzata dal rilevatore e che avrebbe riscontrato un punteggio più alto.

Oggi stiamo rendendo open source il nostro strumento di filigrana di testo SynthID attraverso un toolkit di intelligenza artificiale generativa responsabile aggiornato.
Disponibile gratuitamente per sviluppatori e aziende, li aiuterà a identificare i contenuti generati dall'intelligenza artificiale.
Scopri di più → https://t.co/n2aYoeJXqn pic.twitter.com/4uRKYaz57Y
– Google DeepMind (@GoogleDeepMind) 23 ottobre 2024

Gli esperti del settore lodano Google per aver intrapreso la giusta direzione

Nonostante il sistema DeepMind funzioni meglio di altri strumenti nel mettere in filigrana il testo, i ricercatori hanno riconosciuto nel loro articolo che lo strumento presenta ancora dei difetti. Ad esempio, se alteri un testo generato da Gemini, il rilevatore verrà ingannato.

“Sebbene SynthID non sia la soluzione miracolosa per identificare i contenuti generati dall’intelligenza artificiale, è un elemento importante per lo sviluppo di strumenti di identificazione dell’intelligenza artificiale più affidabili”.
– Kohli.

Se gli utenti alterano i testi in modo significativo o utilizzano un altro chatbot per riassumere il testo, il rilevatore verrà fuorviato nel mettere in filigrana il testo generato dall'intelligenza artificiale.

Google afferma che SynthID Text non compromette la qualità, l'accuratezza o la velocità della generazione del testo testata dal sistema integrato nei suoi modelli Gemini . L'azienda ha inoltre aggiunto che funziona anche su testo ritagliato, modificato o parafrasato.

"Il rilevamento è un problema particolare quando si inizia a tenere conto dell'implementazione in situazioni reali, poiché ci sono problemi con la revisione del testo in natura, dove si dovrà sapere quale modello di filigrana è stato applicato e dove individuare il testo segnale”, ha spiegato Bruce MacCormack, membro del comitato direttivo C2PA.

Oltre a Google, OpenAI lavora da anni anche sulla tecnologia di filigrana del testo basata sull'intelligenza artificiale, ma ha ritardato il loro rilascio a causa della fattibilità tecnica e commerciale.

Ma gli esperti del settore hanno generalmente elogiato l'iniziativa di Google come un passo nella giusta direzione.

"È promettente per migliorare l'uso delle credenziali di contenuto durevole di C2PA per documenti e testo non elaborato", ha affermato Andrew Jenks, direttore della provenienza dei media di Microsoft e presidente esecutivo di C2PA.

MacCormack ha anche aggiunto che, sebbene i ricercatori di Google abbiano ancora molto da fare per rendere questo un caso pratico, rimane una grande iniziativa e “il primo passo nella maratona che ci aspetta”.