In sintesi
L'articolo 70-bis introduce l'eccezione per il text and data mining (TDM), introdotta dal D.Lgs. 177/2021 in recepimento della Direttiva UE 2019/790 (DSM). Distingue due regimi: il TDM per fini di ricerca scientifica è consentito senza autorizzazione e senza compenso, quando effettuato da organismi di ricerca su opere a cui abbiano accesso legale. Il TDM per fini commerciali o diversi dalla ricerca è consentito purché il titolare non abbia esercitato il diritto di opt-out mediante apposita riserva machine-readable. La norma è il punto di contatto tra diritto d'autore e intelligenza artificiale generativa: i dataset di addestramento dei modelli AI rientrano nell'ambito di applicazione della norma.
Testo dell'articoloVigente
Testo della norma consultabile sul portale ufficiale Normattiva. Di seguito la lettura divulgativa a cura della redazione.
Informazione giuridica di carattere generale — Il presente contenuto costituisce informazione giuridica di carattere generale e non sostituisce in alcun modo il parere di un avvocato iscritto all'Albo. La norma riportata è tratta da fonti ufficiali (Normattiva, Gazzetta Ufficiale) e il commento ha finalità divulgativa. Per la valutazione del caso specifico è necessario consultare un professionista abilitato.
Commento
Ratio della norma
L'analisi computazionale di grandi corpora testuali e di dati — tecniche di machine learning, NLP, ricerca biomedica — richiede l'accesso a opere protette su scala che rende impraticabile la negoziazione individuale delle licenze. La Direttiva DSM 2019/790 ha riconosciuto questa realtà introducendo un'eccezione obbligatoria per la ricerca scientifica (art. 3 DSM) e una facoltativa per usi generali (art. 4 DSM) con opt-out. Il D.Lgs. 177/2021 ha recepito entrambe le previsioni nell'art. 70-bis L. 633/1941. Il dibattito si è intensificato con l'avvento dei modelli linguistici di grandi dimensioni (LLM), che utilizzano enormi dataset per il pre-training: il rapporto tra art. 70-bis e i dataset di addestramento AI è la frontiera interpretativa più rilevante del diritto d'autore europeo nel 2026.
Analisi del testo
La norma prevede due eccezioni distinte. La prima (comma 1) è a favore degli organismi di ricerca e degli istituti di tutela del patrimonio culturale: questi possono estrarre testo e dati da opere a cui hanno accesso lecito per finalità di ricerca scientifica, senza necessità di autorizzazione e senza compenso. Le copie prodotte devono essere conservate in modo sicuro e possono essere condivise solo tra ricercatori. La seconda eccezione (comma 2) riguarda qualsiasi soggetto — comprese imprese commerciali — che intenda effettuare TDM su opere a cui ha accesso lecito: l'eccezione opera salvo che il titolare abbia manifestato in modo esplicito e machine-readable la riserva di opt-out. La riserva deve essere espressa in modo che possa essere letta automaticamente dai sistemi informatici (ad esempio tramite metadati nei file o dichiarazioni nei robots.txt).
Quando si applica
La norma si applica a: (a) università, centri di ricerca, biblioteche e istituti museali che analizzino corpora scientifici; (b) imprese tecnologiche che effettuino TDM su contenuti a cui hanno accesso lecito (abbonamenti, open access, licenze) senza opt-out del titolare; (c) in modo controverso, alle società che sviluppano modelli AI e che scaricano dati dal web per il pre-training. Non si applica: (a) quando l'accesso all'opera non è lecito (scraping di siti che vietano l'accesso automatizzato nei terms of service); (b) quando il titolare ha esercitato l'opt-out in modo machine-readable.
Confronto con altri istituti
L'art. 70-bis va letto in coordinazione con gli artt. 102-quinquies (opere fuori commercio), 102-sexies (diritto connesso degli editori) e 102-septies (equa remunerazione piattaforme) introdotti sempre dal D.Lgs. 177/2021. Insieme, questi articoli compongono il nucleo della riforma DSM per il contesto digitale. Sul piano internazionale, il Copyright Office USA sta elaborando linee guida sull'AI training senza un'eccezione TDM codificata analoga; il Giappone ha invece un'eccezione TDM più ampia (art. 30-4 Copyright Act). Il Regolamento UE sull'AI Act (2024) introduce requisiti di trasparenza sui dataset ma non risolve direttamente la questione autoriale.
Problemi applicativi
Le questioni interpretative più urgenti nel 2026 riguardano: (a) se il pre-training di LLM su testi pubblicati sul web costituisca TDM ai sensi dell'art. 70-bis ovvero riproduzione non autorizzata — la dottrina è divisa e mancano pronuncie giurisprudenziali definitive in Italia; (b) quali forme di opt-out siano tecnicamente adeguate (robots.txt, metadati Dublin Core, watermark digitali, token nelle API); (c) se le copie prodotte durante il training siano 'temporanee' ai sensi della Direttiva InfoSoc o costituiscano riproduzioni permanenti soggette ad autorizzazione; (d) se i modelli addestrati possano considerarsi 'opere derivate' dell'opera originale, con conseguente obbligo di licenza. La Corte di Giustizia UE non si è ancora pronunciata specificamente su questi punti in relazione ai modelli generativi.
Casi pratici
Caso 1: Università e analisi corpus giornalistico per ricerca NLP
Caso 2: Startup AI e training su contenuti editoriali con opt-out
Domande frequenti
Cos'è il text and data mining e perché rileva per il diritto d'autore?
Il text and data mining è l'analisi automatizzata di grandi quantità di testo e dati per estrarne informazioni, pattern e correlazioni. Rileva per il diritto d'autore perché richiede la riproduzione di opere protette nelle memorie dei sistemi informatici, operazione che in assenza di eccezione richiederebbe autorizzazione del titolare.
Il pre-training di modelli AI rientra nell'eccezione TDM?
La questione è dibattuta. La norma si applica a chi ha accesso lecito alle opere e in assenza di opt-out. Il pre-training di LLM su dati raccolti dal web senza licenza e in violazione dei terms of service dei siti non rientra nell'eccezione. La giurisprudenza europea è ancora in formazione su questo punto.
Come si esercita l'opt-out dal TDM commerciale?
Il titolare deve manifestare la riserva in modo esplicito e machine-readable: ad esempio tramite dichiarazione nel robots.txt, metadati nei file digitali o intestazioni HTTP specifiche. L'opt-out generico 'tutti i diritti riservati' non è sufficiente secondo la dottrina prevalente.
Cosa cambia tra l'eccezione per ricerca e quella per usi commerciali?
L'eccezione per la ricerca scientifica (comma 1) non richiede compenso e non è soggetta a opt-out. L'eccezione per usi commerciali (comma 2) è invece subordinata all'assenza di opt-out del titolare. Le imprese che fanno TDM commerciale devono sempre verificare se il titolare ha espresso la riserva.