Codifica elettronica dei testi letterari ed e-book:
la marcatura XML TEI ed il trattamento informatico del romanzo Baltico di Matteo Collura
Nelle pratiche di codifica si è cercato di rimanere coerenti con le altre esperienze italiane analoghe, in particolar modo con i testi del progetto TIL e del portale WEB GriseldaOnLine.
Testi Italiani in Linea (TIL)[123] è una biblioteca digitale sperimentale realizzata nell'ambito di un progetto di ricerca, iniziato nel 1998 e conclusosi nel 2000, coordinato dal CRILet[124] e finanziato dal Ministero dell'Istruzione, dell'Università e della Ricerca Scientifica (MURST). La biblioteca digitale di TIL contiene una collezione di opere della tradizione letteraria italiana dalle origini all'epoca contemporanea. I testi sono codificati in formato SGML o XML in base allo schema di codifica TEI. La consultazione on-line delle opere si basa sul software di document management, operante lato server, Dynaweb il quale produce dinamicamente una versione HTML dei documenti XML e un indice dei contenuti per ciascun testo, consente di effettuare ricerche full-text e contestuali e di creare concordanze dinamiche con collegamenti ipertestuali al testo. Oltre al corpus della biblioteca sul sito del progetto è stata pubblicata una ricca documentazione relativa al progetto TIL, fra cui spicca un buon manuale per la codifica dei testi realizzato da Fabio Ciotti. A differenza di quanto da noi fatto, i testi TIL adottano una versione personalizzata della intera DTD TEI; ove possibile, abbiamo cercato soprattutto in riferimento ad alcune impostazioni riguardanti i nomi di attributo, dove maggior libertà è lasciata dalla DTD al codificatore, di conformarci alle scelte fatte dagli studiosi romani.
Analogamente a quanto avvenuto con TIL nella nostra codifica abbiamo anche tenuto conto, nell'orientare le nostre scelte, del lavoro svolto per la sezione di informatica umanistica del sito GriseldaOnLine[125].
Frutto della collaborazione tra il Dipartimento di Italianistica dell'Università di Bologna e la casa editrice Gedit, GriseldaOnLine è una rivista sperimentale di letteratura dedicata alla scuola, alla formazione didattica e ai modelli informatici applicati alle scienze umane. Il sito dedica all'informatica umanistica una intera sezione del portale; qui si trovano un manuale di informatica umanistica ed un piccolo archivio digitale di classici della letteratura italiana codificati in formato XML conformi alla DTD Tei-Lite, i quali abbiamo tenuto in considerazione durante il nostro lavoro, al fine di mantenere una certa uniformità nelle pratiche di codifica, almeno, con le iniziative sorte in ambito nazionale.
Nel prosieguo della trattazione, allorché entreremo nello specifico della discussione sui criteri di codifica, illustreremo nel dettaglio dove ci siamo rifatti ai due progetti e dove invece abbiamo preferito discostarcene.
Sebbene non abbia per noi direttamente costituito un modello cui fare riferimento, a causa della lunga indisponibilità dei testi del progetto proprio nel periodo in cui ci dedicavamo alla codifica, merita in questa sede di essere menzionato il progetto CIBIT (Centro Interuniversitario Biblioteca Italiana Telematica), una tra le prime iniziative del mondo accademico italiano di digitalizzazione di testi letterari finalizzata alla realizzazione di una biblioteca digitale.
Nato da un accordo tra undici Università[126] il CIBIT, leggiamo nella pagina di presentazione del progetto, "ha lo scopo di promuovere la collaborazione scientifica e la costituzione e il potenziamento di servizi telematici in comune nel campo della documentazione primaria e secondaria relativa al patrimonio testuale (linguistico, letterario, storico, filosofico, scientifico, religioso, politico, giuridico, economico, artistico, musicale, ecc.) della tradizione culturale italiana". Il CIBIT ha concretizzato questi obiettivi soprattutto con la costituzione della "Biblioteca italiana telematica", una biblioteca digitale di circa 1.500 testi della tradizione culturale italiana dal Medioevo al Novecento. In origine la biblioteca era basata su DBT, un software di analisi testuale sviluppato presso l'Istituto di Linguistica computazionale del CNR di Pisa, il quale era legato a un formato di codifica dei documenti proprietario. Ormai da qualche anno l'accesso pubblico ai testi del CIBIT è sospeso in quanto anche la Biblioteca Italiana Telematica ha deciso di orientarsi verso lo standard XML: si sta, quindi, a quanto si legge sulle pagine del sito, curando una conversione del corpus testuale nel nuovo formato. Intanto negli ultimi mesi, promosso dal CIBIT, ha visto la luce un progetto nato dalla fusione delle esperienze di TIL e di Biblioteca Italiana Telematica. Nel nuovo progetto, dal nome di Biblioteca Italiana[127], confluiranno i patrimoni testuali delle due iniziative, l'archivio sarà costituito da testi in formato XML/TEI; per la fruizione dei testi si farà riferimento al già citato, software Dynaweb, che permetterà sia la lettura, sia l'effettuazione di complesse ricerche testuali on-line; inoltre, i testi liberi da diritto di autore potranno essere scaricati dall'utente sul proprio computer in diversi formati tra i quali: Adobe PDF, Microsoft Reader e OeBPS (Open eBook Publication Structure): ciò al fine di garantire la fruibilità dei testi sulle più disparate piattaforme informatiche (computer, palmari, etc.), ed usufruire dei vantaggi tipici di questi formati, quali una buona ergonomia di lettura ovvero la produzione di output cartacei di qualità (PDF). Condividiamo ampiamente questa scelta relativamente alla distribuzione dei testi, come vedremo in seguito, anche nel nostro lavoro, abbiamo cercato, seppur in piccolo con le nostre esigue risorse, di seguire un'impostazione analoga.