Codifica elettronica dei testi letterari ed e-book:
la marcatura XML TEI ed il trattamento informatico del romanzo Baltico di Matteo Collura
È ormai da qualche anno entrata a far parte della già folta schiera di acronimi relativi al mondo internet la sigla DRM, abbreviazione che sta per Digital Rights Management, e che viene utilizzata per indicare tutte le metodologie volte alla gestione dei diritti dei prodotti intellettuali. DRM è la risposta dell'industria al crescere dell'importanza dei canali telematici come Internet per la distribuzione di beni digitali. Una delle caratteristiche degli oggetti digitali è l'estrema riproducibilità, se questo è un vantaggio in numerose circostanze, tuttavia rappresenta indubbiamente un problema allorché l'oggetto digitale è portatore di contenuti soggetti a copyright.
Questo problema si è palesato con tutta la sua evidenza in occasione della cosiddetta guerra degli Mp3.
Mp3[93] è un formato digitale audio compresso, ottenuto per mezzo di un sistema di codifica che consente di ridurre notevolmente le dimensioni in byte di un file audio e, quindi, di renderlo più facilmente trasmissibile. Sebbene le specifiche del formato fossero state rilasciate già nel 1993, tuttavia soltanto intorno al 1998, quando la potenza dei computer domestici era ormai adeguata alle onerose esigenze di calcolo degli algoritmi di codifica e decodifica, si è assistito ad una vera e propria esplosione dell'Mp3.
Congiuntamente all'affermazione dell'Mp3 si registrava in quegli anni la crescita esponenziale della rete internet, e frattanto iniziava pure la diffusione dei masterizzatori per Cd-Rom. Vennero a coincidere sul finire degli anni novanta, quindi, una serie di circostanze che produssero una crescita enorme ed inaspettata, della pirateria musicale. Non è che prima di allora non vi fossero fenomeni di pirateria; tuttavia, il reato della copia non autorizzata era perpetrato principalmente per mezzo delle audiocassette, elemento che richiedeva in primo luogo la necessità dell'acquisto di un supporto materiale per la registrazione, l'audiocassetta, ed in ogni caso la procedura di copia comportava uno scadimento qualitativo; in secondo luogo ove non si fosse deciso di approvvigionarsi sul mercato delle cassette pirata, che pur sempre avevano un certo costo, la possibilità di scambiarsi musica era limitata al giro dei propri amici. Sino a quel momento si potrebbe dire che per le case discografiche e gli artisti il fenomeno della copia non autorizzata era, per così dire, entro limiti fisiologici, d'altra parte era possibile un'attiva lotta contro le grandi organizzazioni criminali dedite alla distribuzione illegale di musica.
La situazione della scambio illegale di brani musicali invece è cambiata drasticamente, assumendo le dimensioni di un vero e proprio fenomeno di massa, con volumi di scambio che hanno assunto dimensioni preoccupanti per i protagonisti del mercato musicale, in seguito alla diffusione delle reti Peer to Peer (abbreviato P2P). Quella P2P è una particolare architettura di rete come dice il nome "da pari a pari", che non è basata sulla tradizionale impostazione client/server tipica della rete internet, bensì su di un tipo di connessione, per così dire "paritaria", in cui, in parole molto povere, i singoli computer della rete svolgono allo stesso tempo funzioni di client e di server; questo tipo di connessione scavalca completamente la problematica del sovraffollamento dei server in caso di traffico intenso. Le reti Peer to Peer sono state utilizzate pressoché esclusivamente per creare sistemi di "Filesharing", ossia sistemi per lo scambio di file. Nel settembre del 1999, un programmatore di appena diciotto anni, Shawn Fanning, mise a disposizione un software gratuito per la condivisione di file musicali via Internet: Napster.
La coincidenza dell'affermazione della tecnologia Mp3 che consentiva di creare dei file di dimensioni ridotte, quindi adatti a viaggiare su reti a bassa ampiezza di banda, come era allora internet per la maggior parte degli utenti (ADSL era ancora in fase di sviluppo all'epoca), con la diffusione delle tecnologie per il Filesharing, come detto produssero un fenomeno di massa, quasi una moda, con più o meno consistenti riduzioni degli introiti delle case discografiche a causa del proliferare delle copie illegali di musica digitale. Rispetto ai tempi delle audiocassette l'unico, esiguo, costo che si doveva affrontare per approvvigionarsi di musica in modo illegale era quello della connessione, inoltre il poter accedere ad una rete diffusa su praticamente tutto il pianeta dava la possibilità di avere accesso ad un archivio musicale pressoché infinito. Le varie società per la tutela dei diritti d'autore, prima fra tutte la RIAA, la Recording Industry Association of America, associazione dei discografici americani omologa per certi versi alla nostrana SIAE, intrapresero un'imponente crociata contro Napster ed i sistemi di Filesharing.
La battaglia fu combattuta su più fronti quello legale e quello tecnologico. Furono intentate numerose cause contro i gestori di reti per lo scambio file e soprattutto contro Napster, cosa che portò nel 2001, dopo numerose limitazioni, alla chiusura del sito Napster ed alla cessazione delle attività della sua rete; sul fronte tecnologico ci si attivò per la produzione di tecniche atte ad impedire la duplicazione illegale dei Cd audio e l'estrazione in formato Mp3 delle tracce, tecnologie che però sono state tutte sistematicamente aggirate. Nel 1998 sotto la spinta della lobby dell'industria dell'intrattenimento, il congresso americano ha varato il Digital Millenium Copyright Act, un provvedimento legislativo per la protezione della proprietà intellettuale nell'era digitale, che offre ampi, secondo taluni, eccessivi, poteri a titolari dei diritti d'autore per la difesa degli stessi. La cosiddetta guerra degli Mp3 non si è conclusa con la chiusura di Napster, infatti al capostipite dei software di filesharing, sono seguiti numerosi epigoni che permettono non soltanto lo scambio di Mp3 ma anche di qualsiasi tipo di oggetto digitale, software, immagini, video, etc.[94]. La battaglia per la protezione dei diritti d'autore imperversa a tutt'oggi, ultimamente (2003) le case discografiche, giovandosi dei poteri concessigli dal Digital Millenium Copyright Act, dopo aver costretto i provider internet a fornire i nomi di loro utenti colpevoli di attività di Filesharing, hanno iniziato a denunciare i singoli utenti chiedendo risarcimenti stratosferici, al momento in cui scriviamo la vicenda, che ha suscitato grande scalpore, è ancora in corso. Nonostante tutto ciò, in questi ultimi anni lo scambio file via internet si è esteso anche ai film, complice l'introduzione di nuovi efficaci formati di compressione video, una sorta di Mp3 per i il video, e la diffusione del DVD. Forti della precedente esperienza delle major discografiche, i soggetti del mercato cinematografico hanno cercato di tutelarsi al meglio contro la pirateria inserendo un sofisticato sistema di protezione nei DVD, tuttavia ben presto anche questo è stato violato ed i software per la decodifica dei filmati contenuti nei DVD hanno iniziato a circolare su internet. Inoltre in modo rocambolesco, si dice sia stato trafugato da un hacker francese, è stato diffuso sul web un codec (un programma per la codifica video) sviluppato da Microsoft per la trasmissione di video in rete, che consentendo alti gradi di compressione senza un eccessivo scadimento qualitativo, ben si presta a ricomprimere i filmati estratti dai DVD grazie ai software di sprotezione di cui abbiamo appena detto, così anche i film hanno iniziato a circolare nelle reti di Filesharing, complice l'affermazione della banda larga, Adsl fibra ottica etc.. Si può dire che una sorta di nuovo fenomeno Mp3 si sta ricreando in questi anni per il video, ma la battaglia tra titolari dei diritti e pirati è ancora incorso ed imperversa più aspra che mai. Forse il problema più grande della pirateria digitale veicolata attraverso le reti P2P, è il fatto che questa attività non è percepita come un qualcosa di illegale o immorale, bensì come una pratica normale, è tale la diffusione del fenomeno e la consuetudine tra gli utenti dei software di filesharing allo scaricare materiale di ogni genere, che probabilmente ci si deve scontrare con un problema di natura culturale. Le case discografiche si trovano a dover combattere non più soltanto contro ben precise organizzazione criminali, ma sempre più spesso contro i propri clienti.
Tutta l'industria dei contenuti,in particolar modo quella discografica principale vittima della pirateria digitale, ha dunque avvertito una crescente necessità di trovare meccanismi che le permettano di proteggere le proprietà intellettuali di quei beni che, già oggi, possono essere distribuiti e venduti attraverso il Web.
La risposta a questa esigenza è venuta dalle tecnologie di DRM, focalizzate nel risolvere i problemi legati alla copia non autorizzata di musica, film o e-book, per mezzo di tecniche crittografiche, firma digitale e gestione delle licenze.
La crittografia è la scienza che si occupa dell'elaborazione di sistemi di scrittura segreti intellegibili soltanto da chi è a conoscenza del codice usato per comporla, detto chiave di decodifica. L'uso di tecniche crittografiche ha origini antiche, Svetonio nella Vita dei Cesari racconta che Giulio Cesare usava per le corrispondenze con i suoi generali un sistema di sostituzione molto semplice, egli cambiava ogni lettera del messaggio con la lettera che la segue di tre posizioni più avanti nell'alfabeto, la A diventava D, la B diventava E, la C diventava F e così via fino alle ultime lettere che sono cifrate con le prime. Usando il sistema di Cesare la frase libro elettronico diventerebbe oleur hohwwurqlfr, la chiave di codifica del messaggio è "3", basta che al destinatario del messaggio venga comunicata questa chiave perché sia in grado di decifrarlo. Nel sistema di Cesare la chiave usata per codificare è uguale a quella per decodificare, in questo caso si parla di crittografia simmetrica; nel corso dei secoli sono stati sviluppati numerosi sofisticati sistemi crittografici basati sulle più disparate tecniche di sostituzione e trasposizione delle lettere del messaggio, tutti però si basavano sulla crittografia simmetrica. È una scoperta abbastanza recente la crittografia asimmetrica.
Il punto debole dei sistemi di cifratura tradizionali è sempre stato la necessità di comunicare in modo riservato la chiave di decodifica con la certezza che nessuno ne venga a conoscenza, problema divenuto particolarmente rilevante nel secolo appena trascorso con lo sviluppo delle comunicazioni a distanza, prima con la radio ed ultimamente con le reti informatiche. Una soluzione a questo problema è venuta dalla crittografia asimmetrica, nel 1976 gli studiosi Diffie ed Hellman hanno descritto un protocollo per lo scambio di una chiave segreta sopra un canale insicuro, il sistema è detto asimmetrico in quanto è basato su l'uso di due chiavi generate in modo che sia impossibile ricavarne una dall'altra. Le due chiavi vengono chiamate pubblica e privata: la prima serve per cifrare e la seconda per decifrare. Il primo sistema pratico di crittografia a chiavi pubbliche basato sui concetti proposti da Diffie ed Hellman fu sviluppato nel 1978 da tre professori: Ronald Rivest, Adi Shamir e Leonard Adleman, che battezzarono la propria tecnica di cifratura RSA, dalle iniziali dei tre autori.
Il metodo RSA si basa sulla fattorizzazione di interi di grandi dimensioni ed altri complessi calcoli matematici per creare le due chiavi pubbliche e privata. Le chiavi sono matematicamente collegate tra di loro, teoricamente sarebbe possibile risalire da l'una all'altra, tuttavia allo stadio attuale della tecnologia informatica i calcoli necessari per eseguire questa operazione impiegherebbero centinaia di anni. Riteniamo possa essere utile un piccolo esempio per aiutare a comprende come funzionino praticamente i sistemi di crittografia asimmetrica. Supponiamo che io debba intraprendere una corrispondenza segreta con un'altra persona, entrambi dobbiamo prima scambiarci le rispettive chiavi pubbliche, quindi se io devo mandare un messaggio al mio interlocutore provvederò a crittarlo con la sua chiave pubblica ed inviarglielo, ricevutolo egli lo decritterà usando la sua chiave privata. Nel momento in cui un messaggio è codificato con una chiave questo potrà essere decodificato soltanto grazie alla chiave corrispondente, quindi una volta che ho codificato il messaggio con la chiave pubblica del mio interlocutore non potrò più accedervi, solamente lui con la propria chiave privata potrà aprirlo. Quando il mio interlocutore deciderà di rispondermi adotterà il medesimo procedimento, codificherà con la mia chiave pubblica e in seguito io provvederò alla decodifica con la mia chiave privata. Usando una fantasiosa analogia potremmo paragonare la crittografia asimmetrica ad un lucchetto che invece di avere un'unica chiave che lo chiude e lo apre, ha due chiavi la prima è in grado solamente di chiudere il lucchetto, la seconda è in grado di aprirlo, ma solo se è stato chiuso correttamente con la prima.
Come detto si basano principalmente sui principi della crittografia asimmetrica le tecnologie di DRM, semplificando estremamente possiamo dire che nelle transazioni online i software per la lettura generano due chiavi una pubblica con cui viene crittato il libro elettronico ed una privata che viene spesso associata in modo univoco con un determinato dispositivo hardware in modo tale che l'e-book possa essere letto solo su quello specifico apparecchio.
La crittografia oltre alla tutela dalla copia non autorizzata fornisce importanti soluzioni per altre due legittime esigenze: la tutela del consumatore e la tutela della proprietà intellettuale in ambito digitale. Come è possibile essere certi delle informazioni cui si accede, come si può fare a sapere che quanto si legge non è stato modificato da qualcuno, come ci si può assicurare della provenienza di un testo? Ogni autore è naturalmente interessato che la sua opera sia sempre legata al suo nome e non venga alterata in alcun modo. Anche a queste esigenze dà una risposta la crittografia asimmetrica per mezzo della firma digitale. La crittografia a chiave pubblica/privata non viene usata soltanto per la trasmissione di informazioni riservate ma anche, sfruttando in modo inverso il principio delle chiavi, per la firma digitale dei documenti elettronici. Abbiamo detto che le due chiavi pubblica e privata sono collegate, tutto ciò che viene codificato con la chiave pubblica può essere decodificato solo con la corrispondente chiave privata, viceversa quanto è codificato con la chiave privata può essere decodificato solo con la relativa chiave pubblica. Se ad esempio cifriamo un messaggio con la nostra chiave privata, quel messaggio cifrato potrà essere letto da tutte le persone che possiedono la nostra chiave pubblica. Se queste riusciranno a decifrare il messaggio avranno quindi la certezza che è stato inviato dal proprietario della chiave pubblica usata per la decifratura, ossia da noi. Tutto è garantito dal principio base della crittografia asimmetrica, dal fatto cioè che la chiave segreta decifra solo ciò che è stato cifrato con la rispettiva chiave pubblica e viceversa.[95] In realtà in questo caso l'unica certezza che abbiamo è che il messaggio da noi ricevuto proviene dal possessore di una certa chiave privata, ma come si fa a esser certi che chi ci scrive sia effettivamente chi afferma di essere?
Per garantirci dell'identità di un individuo, ossia che sia proprio quell'individuo ad avere disponibilità di una certa chiave privata occorre che una terza parte, la cosiddetta Autorità di Certificazione, emetta un certificato personale da associare alla firma digitale di quel soggetto. Un certificato personale è il corrispettivo digitale della carta d'identità, come questa certifica la nostra identità, di cui si fa garante la Pubblica Amministrazione, così questa garantisce l'identità del proprietario di una certa chiave privata, di cui si fa garante un'Autorità di Certificazione. Una Autorità di Certificazione è semplicemente una entità che riceve un insieme di informazioni, le verifica e le garantisce rispetto a una terza parte, in pratica una sorta di notaio telematico[96].
Un certificato emesso da una Autorità di Certificazione è firmato con la chiave pubblica dell'Autorità di Certificazione e tipicamente contiene:
La firma digitale dell'Autorità di Certificazione apposta al certificato è per così dire il corrispettivo digitale dei timbri apposti alla carta d'identità. La firma digitale oltre a permettere di verificare la provenienza di un documento consente anche di accertarsi che il documento non sia stato alterato o modificato da qualcun altro, anche, per ipotesi, dallo stesso destinatario. Per far ciò si ricorre ad una particolare tecnica chiamata funzione di Hash o Hashing. La funzione di Hash è un algoritmo che partendo da un documento di qualsiasi dimensione lo elabora e produce un codice di dimensione fissa, una sorta di impronta digitale del file. L'hash non è altro che un codice, una sequenza di bit, che viene utilizzata per vedere se dei dati (una e-mail, un certificato digitale, o qualsiasi altra cosa) sono stati in qualche modo modificati da qualcuno. Ad esempio se creiamo un file di testo con questo contenuto "Libro elettronico e-book, prova hash." il suo codice di hash calcolato con l'algoritmo SHA1 sarà "76836460fcac1258254e6d00961c5bf59db93ae3", se eliminiamo il punto finale dalla frase di esempio il nuovo valore di hash sarà "854d99cca59c7e2eabeb3ba530e34fdbb22efe5c" come si può vedere il valore è completamente diverso. L'hashing produce codici di dimensione fissa indipendentemente dalla grandezza del documento. La funzione di Hash è conosciuta anche come one way hash in quanto dato il valore di hash è impossibile risalire al documento.
Tipicamente una firma digitale contiene, crittografati con la sua chiave privata, i dati del soggetto firmatario, eventuali certificati che ne attestano e garantiscono l'identità, e l'hash del documento che assicura che questo non è stato modificato, infatti nel caso in cui il documento venisse modificato l'hash non corrisponderebbe più con quello indicato nella firma, e quindi la firma stessa sarebbe non valida. Come si può comprendere le tecnologie di firma digitale costituiscono degli strumenti molto utili anche in ambito e-book, per la certificazione della originalità, della integrità e della provenienza dei libri elettronici. Ad esempio il formato Microsoft Lit integra funzioni di Hash per impedire che gli e-book possano essere alterati, infatti in caso di modifiche al file il Reader non permette di aprirlo. Tra le cause che hanno frenato la diffusione dell'e-book vi è stato il timore della pirateria da parte di editori ed autori. Sino ad oggi i sistemi di protezione dei diritti d'autore spesso non si sono rivelati abbastanza solidi, è indubbio che la sfida del futuro per il mercato del libro elettronico si chiama DRM, sfida che si prospetta tutt'altro che facile, infatti uno dei motti che circola nelle comunità hacker della rete è: "ciò che è scritto può essere letto".