Perplexity è stato colto in flagrante mentre estraeva dati, sostiene Reddit

Reddit ha fatto causa a Perplexity AI per aver continuato a utilizzare i contenuti di Reddit per addestrare il suo modello di intelligenza artificiale, nonostante i precedenti avvertimenti di non copiare i contenuti della piattaforma.

Poiché i sistemi di intelligenza artificiale si affidano sempre più a contenuti online disponibili al pubblico per addestrarsi e generare risposte, aziende come Reddit stanno cercando di tracciare linee nette tra ciò che è considerato dato "pubblico" e "proprietario".

La trappola di Reddit svela un presunto furto di dati

Reddit ha intentato una causa contro Perplexity, un'azienda di intelligenza artificiale da 20 miliardi di dollari, accusandola di aver raccolto illegalmente dati attraverso la sua piattaforma. Secondo i documenti depositati mercoledì presso un tribunale federale di Manhattan, Reddit ha affermato che Perplexity ha ignorato le istruzioni di non effettuare scraping dei suoi contenuti e ha continuato a utilizzare i dati di Reddit per generare risposte basate sull'intelligenza artificiale.

La denuncia afferma che Reddit aveva esplicitamente impedito a Perplexity di raccogliere i suoi dati, ma il "motore di risposte" dell'azienda di intelligenza artificiale continuava a produrre risultati contenenti contenuti di Reddit. "L'aumento è stato così significativo che un osservatore esterno ha ipotizzato che fosse dovuto alla stipula di un accordo di licenza tra Perplexity e Reddit", si legge nella causa. "In realtà, non esiste alcuna licenza tra Perplexity e Reddit".

Per dimostrare i suoi sospetti, Reddit ha ideato un test digitale ingegnoso. Ha creato un post "trappola" che poteva essere trovato solo dal motore di ricerca di Google. Google ha un legittimo accordo di licenza per i contenuti con Reddit, quindi qualsiasi azienda senza tale accordo non avrebbe dovuto avere accesso al post.

L'azienda lo ha descritto come l'equivalente online di una "fattura contrassegnata". Se il sistema di Perplexity avesse riprodotto il contenuto di quel post nascosto, Reddit avrebbe scoperto di aver aggirato le sue misure di sicurezza, probabilmente estraendo dati dai risultati di ricerca di Google, noti come SERP.

Nel giro di poche ore, il post di prova apparentemente privato ha iniziato a comparire nelle risposte generate dallo strumento di intelligenza artificiale di Perplexity.

"L'unico modo in cui Perplexity avrebbe potuto ottenere quel contenuto di Reddit e poi utilizzarlo nel suo 'motore di risposte' è se lui e/o i suoi coimputati avessero scansionato le SERP di Google", si legge nella causa.

Reddit ha citato in giudizio tre società di data scraping, Oxylabs UAB, AWM Proxy e SerpApi, accusandole di aver aiutato Perplexity a ottenere l'accesso non autorizzato ai post di Reddit o di aver venduto i dati di Reddit a Perplexity.

Le accuse di Reddit sono state smentite

Perplexity ha respinto le accuse di Reddit. Il portavoce dell'azienda, Jesse Dwyer, ha dichiarato che Perplexity "non tollererà minacce contro la trasparenza e l'interesse pubblico". L'azienda ha anche affermato in un post su Reddit, dopo la presentazione della causa, di "non addestrare modelli di intelligenza artificiale sui contenuti".

Anche i rappresentanti delle altre aziende citate nella causa hanno rilasciato dichiarazioni. Un portavoce di SerpApi ha dichiarato che l'azienda intende "difendersi con vigore" in tribunale. Il responsabile della governance e della strategia di Oxylabs, Denas Grybauskas, ha dichiarato che la sua azienda è "scioccata e delusa", aggiungendo che Oxylabs "è sempre stata e continuerà a essere un pioniere e un leader del settore nella raccolta di dati pubblici".

Ad agosto, Cloudflare, un'azienda di infrastrutture internet, ha rivelato di aver condotto un test simile per verificare se Perplexity stesse seguendo le regole di web crawling. Cloudflare ha affermato di aver creato pagine contrassegnate con un codice che indicava ai bot di Perplexity di non accedervi, ma ha comunque scoperto che i crawler dell'azienda di intelligenza artificiale visitavano le pagine con restrizioni.

Il CEO di Cloudflare, Matthew Prince, ha fatto notizia paragonando il comportamento di Perplexity a quello degli "hacker nordcoreani".

Alcune aziende di intelligenza artificiale apparentemente "rispettabili" si comportano più come hacker nordcoreani. È ora di denunciarle, svergognarle e bloccarle con la forza. https://t.co/vqMzGRHZPf
— Matthew Prince (@eastdakota) 4 agosto 2025

"Alcune aziende di intelligenza artificiale apparentemente 'rispettabili' si comportano più come hacker nordcoreani", ha scritto Prince su X. "È ora di denunciarle, svergognarle e bloccarle con la forza". La causa di Reddit citava le osservazioni di Prince come parte del suo caso.

Richiedi il tuo posto gratuito in una community esclusiva di trading di criptovalute , limitata a 1.000 membri.