CEO di Reddit: Microsoft e altri motori di ricerca basati sull’intelligenza artificiale devono pagare per utilizzare i “nostri dati”

Il CEO di Reddit Steve Huffman ha insistito sul fatto che la piattaforma di social media continuerà a impedire alle società di intelligenza artificiale, inclusa Microsoft, di raccogliere dati sul suo sito fino a quando non verranno pagate e non avranno voce in capitolo su come vengono utilizzati i contenuti. Secondo The Verge, Reddit non scenderà a compromessi sull'uso senza licenza dei suoi dati per addestrare modelli di intelligenza artificiale.

Negli ultimi mesi, Reddit ha apportato modifiche alla sua politica nel tentativo di impedire agli sviluppatori di intelligenza artificiale di eliminare i dati degli utenti, i post e le community senza consenso o pagamento. Da allora l'azienda ha concluso un accordo del valore di 60 milioni di dollari con Google, consentendo al colosso della tecnologia di utilizzare i suoi contenuti. Reddit ha stretto un accordo simile con OpenAI, produttore di ChatGPT, a maggio.

Microsoft trae profitto dai contenuti gratuiti di Reddit

Tuttavia, Microsoft ha continuato a utilizzare i contenuti di Reddit per creare funzionalità di intelligenza artificiale nel suo motore di ricerca Bing senza autorizzazione, ha affermato Huffman. Il CEO di Reddit ha accusato Microsoft di trarre profitto dai contenuti della sua azienda. Ha detto che Microsoft ha raccolto i dati gratuitamente ma li ha venduti a entità AI tramite l’API Bing a scopo di lucro.

Alla fine, Reddit ha impedito a Microsoft di accedere ai propri dati utente, il che significa che Bing non poteva più far emergere i contenuti Reddit nei suoi risultati di ricerca. Reddit sfrutta il Robots Exclusion Protocol, o robots.txt, uno strumento utilizzato dai siti Web per identificare i web crawler che accedono al sito e impedire l'uso non autorizzato dei loro dati. In una recente intervista con The Verge, Huffman ha dichiarato:

“Abbiamo chiesto a Microsoft, Anthropic e Perplexity di agire come se tutto il contenuto su Internet fosse gratuito per loro. Questa è la loro vera posizione”.

Huffman ha rivelato che le tre società – Microsoft, Anthropic e Perplexity – e altre aziende di intelligenza artificiale più piccole si sono rifiutate di negoziare il pagamento per lo scraping dei contenuti di Reddit. Le entità in genere sostengono che i dati sono informazioni disponibili al pubblico e possono essere utilizzati secondo i principi del fair use. Salesforce in precedenza aveva difeso il proprio utilizzo dei contenuti di YouTube per gli stessi motivi. Apple ha anche affermato di aver addestrato la propria intelligenza artificiale sui dati disponibili al pubblico.

"Senza questi accordi, non abbiamo alcuna voce in capitolo o conoscenza di come i nostri dati vengono visualizzati e per cosa vengono utilizzati", ha affermato Huffman. "[Questo] ci ha messo nella posizione di bloccare le persone che non sono state disposte a scendere a patti con il modo in cui vorremmo che i nostri dati fossero utilizzati o meno."

Il capo di Microsoft afferma che i contenuti web sono "freeware"

Un portavoce di Microsoft ha affermato che l'azienda "rispetta" il protocollo robot.txt e ha smesso di eseguire la scansione di Reddit dal 1° luglio. Nel frattempo, Mustafa Suleyman, CEO di Microsoft AI, è recentemente apparso sulla stampa descrivendo i contenuti di Reddit come freeware.

"…per quanto riguarda i contenuti già presenti sul web aperto, il contratto sociale di tali contenuti fin dagli anni '90 prevede che si tratti di fair use", ha spiegato. “Chiunque può copiarlo, ricrearlo, riprodurlo. Se vuoi, è stato un freeware. Questa è stata l'intesa."

Le leggi statunitensi sul copyright consentono il riutilizzo dei contenuti pubblicati. Il sito web sul copyright del governo degli Stati Uniti afferma che è consentito utilizzare porzioni limitate di un'opera comprese le citazioni, per scopi quali commenti, critiche, notizie e resoconti accademici poiché tutti rientrano nella dottrina del fair use. Tuttavia, i motori di ricerca non sono obbligati a risarcire gli editori.