Codifica elettronica dei testi letterari ed e-book:
la marcatura XML TEI ed il trattamento informatico del romanzo Baltico di Matteo Collura
In questa terza ed ultima parte illustreremo dettagliatamente il lavoro svolto per la codifica elettronica del romanzo Baltico di Matteo Collura ed esporremo i risultati di quello che potremmo definire un esperimento di codifica. Si è ipotizzato di dover codificare un libro da inserire in un archivio elettronico della Cattedra di Filologia e Letteratura Siciliana ovvero in un'ipotetica realizzanda biblioteca digitale della letteratura siciliana. Alla codifica propriamente detta si sono affiancati tutta una serie di lavori, per cosi dire, collaterali al testo codificato, finalizzati alla fruizione, distribuzione e studio del testo stesso ed eventualmente destinati ad essere integrati nelle strutture dell'archivio digitale.
Nel corso della codifica si sono affrontati problemi di varia natura e si sono trovate diverse soluzioni, in alcuni casi originali ed alternative rispetto alle pratiche comuni. Abbiamo cercato di non allontanarci troppo dalle orme di chi questi sentieri ha calcato prima di noi, pertanto ci siamo sforzati di mantenere una certa coerenza con le scelte e le soluzioni adottate nelle poche esperienze italiane analoghe.
Nelle pagine che seguono sono illustrati nel dettaglio le fasi di tutto questo lavoro ed i risultati che riteniamo di aver ottenuto.
Una volta identificati gli obiettivi da perseguire, ossia la digitalizzazione e la codifica di un testo unitario con finalità di conservazione, analisi e distribuzione da inserire nell'archivio elettronico della Cattedra di Filologia e Letteratura Siciliana ed eventualmente poi da integrare in una possibile biblioteca digitale, si sono dovuti individuare gli strumenti con cui poter raggiungere gli obiettivi prefissatici.
Abbiamo detto che una delle finalità che abbiamo tenuto a mente nell'elaborazione del nostro lavoro è stata la possibilità di poter integrare l'opera da noi codificata in una biblioteca digitale appare, dunque, opportuno spendere qualche parola sul concetto di biblioteca digitale e quanto ad esso sottende.
La dissertazione teorica sul tema della biblioteca digitale imperversa in questi anni più accesa che mai ed una elaborazione chiara ed universalmente condivisa del concetto di biblioteca digitale sembra ancora di là da venire. Superficialmente, sulla scorta di quanto già fatto con il termine e-book, possiamo identificare la biblioteca digitale sulla base di una emulazione avanzata in ambito informatico delle strutture, organizzazioni, servizi, funzionalità e finalità della biblioteca tradizionale, tenendo ovviamente presenti le necessarie diversità che la natura elettronica e telematica di questa nuova entità comportano. Non qualsiasi archivio di testi elettronici, quindi, può esser considerato biblioteca digitale, sostiene giustamente Fabio Ciotti: "il contenuto informativo di una biblioteca si distingue da un generico insieme di documenti in quanto dotato di un'organizzazione complessiva dovuta ad un agente intenzionale distinto dai creatori dei singoli documenti in essa contenuti. Tale organizzazione si manifesta nella biblioteca tradizionale mediante la classificazione, la soggettazione e l'indicizzazione. Questi strumenti, infatti, costruiscono una rete virtuale di relazioni tematiche e concettuali tra i documenti presi come unità"[106].
Una delle principali funzioni delle biblioteche tradizionali è infatti la catalogazione ed organizzazione del corpus documentale, un tale tipo di struttura deve poter essere ravvisato anche nella sua versione digitale, come vedremo meglio in seguito, la possibilità di definire un'adeguata rete di relazioni interdocumentali ed intradocumentali è legato anche alla potenza rappresentazionale del linguaggio adoperato per la codifica dei documenti e del sistema di metadati ad esso associato. Ma, la biblioteca sia quella tradizionale, quanto quella digitale, non esaurisce le sue funzioni esclusivamente nell'organizzazione e catalogazione dei testi, sebbene sia questa un'attività di grande rilievo, bensì si esplica in tutta una serie di servizi e finalità di notevole importanza. Sottolinea questo fatto la definizione che di biblioteca digitale offre Anna Maria Tammaro nel suo libro, scritto insieme ad Alberto Salarelli, dal titolo "La biblioteca digitale"; la studiosa propone come una delle migliori sin ora elaborate quella usata al Workshop on distribued knowledge work environments svoltosi dal 9 all'11 marzo 1997 a Santa Fe, in New Mexico: "II concetto di biblioteca digitale non è quello di una collezione digitale dotata di strumenti di gestione dell'informazione. È piuttosto uno spazio in cui mettere insieme collezione, servizi e persone a supporto dell'intero ciclo di vita della creazione, uso, preservazione di dati, informazione e conoscenza."[107].
Come si evince il problema è abbastanza complesso e la discussione teorica è ad oggi ancora assai viva e controversa. A noi basti dire che per il lavoro di digitalizzazione e codifica del testo di Baltico abbiamo sempre cercato, nell'orientare le nostre scelte, di aver presente le eventuali esigenze di una biblioteca digitale, ed anzi ci siamo sforzati di fare in modo che, seppure per una prima fase della vita del documento digitale si prevede che questo vada a far parte esclusivamente di un archivio testuale, si possano offrire, in piccolo, anche con gli esigui strumenti del dipartimento alcuni servizi avanzati tipicamente prerogativa delle biblioteche digitali.
In quest'ottica la prima decisione veramente importante ha riguardato la scelta della soluzione da adottare per la memorizzazione digitale del testo. Il sistema di codifica del testo per adattarsi al meglio alle nostre esigenze ed agli obiettivi prefissatici avrebbe dovuto avere delle ben precise caratteristiche: essere in primo luogo dotato di una adeguata potenza rappresentazionale, tale da poter raffigurare adeguatamente i diversi fenomeni testuali, ed allo stesso tempo essere espandibile ed integrabile a seconda di specifiche esigenze di analisi o riproduzione. Il nostro linguaggio di codifica avrebbe dovuto dare inequivocabili garanzie di portabilità e riusabilità del prodotto digitale nello spazio e nel tempo; doveva, quindi, far necessariamente riferimento ad uno standard universalmente riconosciuto, adottabile su qualsiasi piattaforma informatica e non soggetto a rapida obsolescenza. All'indipendenza da una particolare architettura hardware o software si affianca l'indipendenza logica da tipologie di elaborazione, il nostro sistema di rappresentazione oltre ad essere portatile e standard non avrebbe dovuto essere orientato ad un'applicazione specifica, quali stampa, information retrival o altro, piuttosto si doveva adattare ed essere utilizzabile a seconda delle diverse esigenze. Anche nell'ottica della biblioteca digitale riveste notevole importanza la capacità dello standard di codifica di farsi portatore di un alto grado di meta-informatività, capace di rappresentare adeguatamente le relazioni interdocumentali ed intradocumentali; i metadati sono "bit che parlano di altri bit", ossia insieme di dati ed informazioni che descrivono un oggetto digitale, e costituiscono l'equivalente elettronico della scheda per la catalogazione e soggettazione dei documenti nella biblioteca tradizionale, ma a differenza delle schede catalografiche i metadati, come meglio vedremo nelle prossime pagine, veicolano informazioni che vanno al di là della semplice individuazione ed indicizzazione del documento ma ineriscono alla stessa natura dell'oggetto digitale e si ricollegano a problematiche quali la preservazione nel tempo e l'integrazione in reti telematiche.
Alla luce di quanto detto ed in virtù di quanto già evidenziato nei capitoli precedenti, la nostra scelta sul linguaggio da adottare per la codifica di Baltico non poteva che cadere su quello che ormai è univocamente indicato come lo standard per eccellenza nell'interscambio di documenti, l'XML giustamente designato come l'ASCII del ventunesimo secolo. L'adozione di un linguaggio di codifica di tipo dichiarativo ci ha peraltro permesso quella indipendenza da tipologie di elaborazione, di cui abbiamo detto in precedenza; come dimostreremo concretamente nel resto della trattazione, partendo da un unico sorgente XML siamo stati in grado di ottenere output per diverse esigenze di fruizione o analisi. Appurata l'adozione di XML, rimaneva da scegliere la DTD, ossia il vocabolario XML da utilizzare, in tal senso la scelta è stata pressoché obbligata, non potendosi non orientare verso quello che in ambito umanistico è ormai considerato lo standard per la rappresentazione informatica dei testi letterari, ovvero lo schema di codifica definito dalla Text Encoding Initiative.