Il Pugno di Ferro di Reddit: 709 Subreddit Banditi e la Battaglia Cruciale sul Copyright e i Dati AI

redit
redit

Reddit si trova al centro di una duplice e cruciale battaglia: da un lato, l’applicazione rigorosa delle normative sul copyright contro la pirateria interna; dall’altro, la difesa dei propri contenuti dagli scraper esterni che alimentano i modelli di Intelligenza Artificiale (AI). Il recente rapporto sulla trasparenza evidenzia la serietà di questa posizione, svelando un numero impressionante di sanzioni.


 

🛑 Il Flagello del Copyright Interno: I 709 Subreddit Banditi

 

Nel primo semestre del 2025, Reddit ha intensificato le sue azioni di contrasto alla pirateria. Il dato più eclatante emerso dal suo ultimo Transparency Report è la chiusura definitiva di 709 subreddit a causa di violazioni ripetute e gravi del copyright (secondo le linee guida del DMCADigital Millennium Copyright Act statunitense).

Questo numero rappresenta un aumento significativo, superando il doppio delle sanzioni registrate nello stesso periodo dell’anno precedente. L’incremento non è solo quantitativo, ma riflette anche un cambio di politica nella gestione dei contenuti:

  • Violazione Non Solo sul Hosting: In passato, Reddit tendeva a considerare come violazione solo i contenuti ospitati direttamente sulla piattaforma. Le nuove politiche chiariscono che anche un semplice link che rimanda esternamente a materiale protetto da copyright (ad esempio, un intero film o un leak di un prodotto) può innescare una sanzione e, se ripetuto, portare al ban dell’intero subreddit o dell’utente.
  • Risposta alle Notifiche: Nonostante l’aumento delle chiusure, Reddit ha ricevuto circa 58.920 notifiche di takedown per copyright nel semestre. La piattaforma ha rimosso oltre 220.000 contenuti, dimostrando che, pur mantenendo salda la possibilità di invocare il fair use (uso lecito), la tolleranza verso le comunità pirate è vicina allo zero.

Parallelamente, sono stati banditi anche 837 account utente per violazioni ripetute, a conferma che l’azione è diretta sia contro le comunità sia contro gli individui che abusano della piattaforma per la diffusione illecita di contenuti.


 

🤖 Il Fronte Esterno: I Dati, l’AI e i Robot Esclusi

 

L’altra grande battaglia di Reddit è quella sulla proprietà intellettuale dei suoi contenuti generati dagli utenti (User-Generated Content) in relazione all’addestramento dei Modelli Linguistici di Grandi Dimensioni (LLM) che alimentano l’AI generativa.

 

La Strategia di Monetizzazione e Controllo

 

Reddit ha adottato una strategia a due velocità per difendere il valore del suo archivio, ricco di discussioni organiche, opinioni e dati di valore inestimabile per l’AI:

  1. Accordarsi con i Giganti (Google): Reddit ha siglato accordi di licenza pluriennali e multimilionari (si parla di 60 milioni di dollari l’anno) con aziende selezionate, come Google. Questi accordi concedono alle parti licenziatarie l’accesso regolamentato all’archivio dati di Reddit per l’addestramento dell’AI, garantendo al contempo che i contenuti eliminati dagli utenti vengano rimossi anche dai dataset di addestramento (attraverso l’uso di una Compliance API).
  2. Bloccare gli Scraper Senza Licenza (Anthropic): Per tutte le altre entità, Reddit ha utilizzato il file robots.txt, un segnale standard per i web crawler, per impedire l’indicizzazione e lo scraping del sito. Questa mossa ha portato colossi come Microsoft (per il suo motore Bing e i relativi modelli AI) a smettere di scrappare i dati di Reddit, riconoscendo di fatto il valore proprietario del contenuto.

 

Il Contenzioso con Anthropic

 

Il culmine di questa battaglia legale e di copyright è rappresentato dalla causa intentata da Reddit contro Anthropic, l’azienda dietro il chatbot Claude. Reddit accusa Anthropic di aver sistematicamente scrappato e utilizzato il contenuto generato dagli utenti (milioni, se non miliardi di post) per addestrare i propri modelli AI senza autorizzazione, licenza o compensazione.

La mossa è strategicamente significativa perché Reddit ha evitato di basare le sue accuse unicamente sulla violazione del copyright (un terreno legale ancora incerto nel contesto dell’AI), concentrandosi invece sull’inadempienza contrattuale e sulla violazione dei termini di servizio per l’accesso ai dati. Il risultato di questa disputa legale potrebbe riscrivere le regole su come le aziende di AI possono e non possono utilizzare i dati pubblici delle piattaforme social per costruire i propri modelli, stabilendo un precedente cruciale per l’intera economia del dato.

Related Post

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *