Cloudflare, la società di infrastrutture Internet responsabile dell'instradamento di circa il 20% del traffico web globale, ha annunciato che inizierà a bloccare di default i crawler di intelligenza artificiale (IA).
La modifica, in vigore da martedì, modifica il modo in cui le aziende di intelligenza artificiale potranno accedere ai contenuti ospitati sul web, dopo che gli editori hanno insistito per un maggiore controllo e una maggiore remunerazione dei loro dati.
La rete per la distribuzione di contenuti (CDN) aiuta i siti web a memorizzare nella cache e a fornire dati più vicini agli utenti. Con questa nuova policy, qualsiasi nuovo dominio che si registra ai servizi Cloudflare dovrà decidere quando e se i bot di intelligenza artificiale possono accedere ai propri contenuti, oppure potrà scegliere di bloccare completamente gli scraper.
Cloudflare lancia strumenti per controllare l'accesso all'IA
Questa modifica si aggiunge alle precedenti iniziative di Cloudflare volte a offrire agli editori un maggiore controllo sui propri dati. Lo scorso anno, l'azienda ha introdotto una soluzione one-click per bloccare tutti i bot di intelligenza artificiale noti e una dashboard per monitorare l'attività dei crawler. I proprietari di siti utilizzano questo strumento per distinguere tra i crawler che estraggono dati per l'addestramento dell'intelligenza artificiale, per scopi di ricerca o per altri scopi.
L'annuncio di martedì formalizza tali protezioni e le applica di default. " I crawler AI hanno scansionato i contenuti senza limiti. Il nostro obiettivo è restituire il potere ai creatori, continuando ad aiutare le aziende di intelligenza artificiale a innovare ", ha dichiarato Matthew Prince, CEO di Cloudflare, in una dichiarazione rilasciata oggi.
Secondo i registri aziendali, il sistema Pay per Crawl di Cloudflare, alla base di questa iniziativa, è un mercato in cui le aziende di intelligenza artificiale e i proprietari di contenuti possono concordare un compenso per ogni accesso.
Entrambe le parti devono disporre di un account Cloudflare e, una volta configurato, possono negoziare prezzi e condizioni per le attività di web crawling. Cloudflare funge da intermediario nella transazione, addebitando i costi all'azienda di intelligenza artificiale e trasferendo i guadagni all'editore.
Gli sviluppatori di intelligenza artificiale si lamentano dell'accesso limitato al sito web
Diversi sviluppatori di intelligenza artificiale, tra cui OpenAI , l'azienda di intelligenza artificiale supportata da Microsoft che ha sviluppato ChatGPT, hanno rifiutato di partecipare al programma. In una recente dichiarazione pubblica, l'azienda ha criticato aspramente Cloudflare per aver inserito un nuovo intermediario tra editori e sviluppatori di intelligenza artificiale.
OpenAI ha dichiarato di rispettare in passato il protocollo robots.txt, un file che consente agli operatori di siti web di controllare l'accesso dei crawler, e ha insistito sul fatto che rispetta le preferenze del sito.
In un'analisi di giugno, Cloudflare afferma di aver rilevato un divario tra la frequenza di scraping e i referral del traffico. Il crawler di Google, ad esempio, ha effettuato l'accesso ai siti web 14 volte per ogni visita inviata. In confronto, il bot di OpenAI ha effettuato lo scraping dei siti 17.000 volte per ogni referral.
Matthew Holman, avvocato esperto di tecnologia e residente nel Regno Unito, ha dichiarato alla CNBC che i crawler di intelligenza artificiale possono essere intrusivi e potenzialmente dannosi per l'esperienza utente.
" Sono stati accusati di sovraccaricare i siti web e di avere un impatto significativo sull'esperienza utente ", ha affermato . Holman ha aggiunto che, se il sistema di Cloudflare funzionasse come previsto, potrebbe compromettere la capacità dei chatbot di intelligenza artificiale di raccogliere e addestrare dati web su larga scala.
Gli editori si uniscono a Cloudflare
Le principali aziende del settore media sostengono gli sforzi di Cloudflare per riprendere il controllo sui contenuti digitali. Editori come TIME, Associated Press, Condé Nast, The Atlantic, ADWEEK e Fortune hanno tutti concordato di bloccare di default i bot basati sull'intelligenza artificiale.
I media hanno accettato l'estrazione di dati da piattaforme come Google in cambio di traffico e ricavi pubblicitari. Ma l'attuale ecosistema basato sull'intelligenza artificiale non prevede tale reciprocità. Per molti, piattaforme di intelligenza artificiale come ChatGPT e Claude consumano contenuti senza un coinvolgimento significativo o ricavi per le fonti originali.
Cloudflare afferma che continuerà a collaborare con gli sviluppatori per spingere i crawler AI che desiderano ottenere l'accesso a rivelare la propria identità, lo scopo e il comportamento di scansione.
"I contenuti originali sono ciò che rende Internet una delle più grandi invenzioni dell'ultimo secolo", ha affermato il CEO Matthew Prince. "Dobbiamo unirci per proteggerli".
KEY Difference Wire : lo strumento segreto utilizzato dai progetti crittografici per ottenere una copertura mediatica garantita