Codifica elettronica dei testi letterari ed e-book:
la marcatura XML TEI ed il trattamento informatico del romanzo Baltico di Matteo Collura

III.2. TEI

La Text Encoding Initiative è un progetto di ricerca internazionale, volto allo sviluppo di un modello di codifica standard finalizzato alla rappresentazione dell'informazione testuale ed alla gestione dei dati umanistico-letterari in formato elettronico. Il progetto Tei ha preso l'avvio nel 1988[108] ed è promosso, organizzato e sostenuto dalle tre più importanti associazioni nel campo dell'informatica umanistica e della linguistica computazionale: l'Association for Computers and the Humanities (ACH)[109], l'Association for Computational Linguistics (ACL)[110], e l'Association for Literary and Linguistic Computing (ALLC)[111]; il principale supporto finanziario al progetto è fornito dall'U.S. National Endowment for the Humanities (NEH)[112], dal XIII Direttorato della Commissione Europea (Information Society Directorate-General CEC/DG-XIII)[113], dalla Andrew W. Mellon Foundation[114] e dal Social Science and Humanities Research Council of Canada[115].

Sin dal suo avvio, obiettivo principale della Text Encoding Initiative è stato la definizione di uno standard libero per la memorizzazione dei testi letterari finalizzato all'interscambio di documenti di natura umanistico-letteraria tra piattaforme informatiche differenti, non dipendente da una particolare applicazione software ed adatto alla rappresentazione di tutte le categorie di testi e caratteristiche testuali oggetto di studio.

Per il conseguimento di questi obiettivi l'orientamento è teso verso una codifica di tipo dichiarativo; si adottò lo Standard Generalized Markup Language (SGML), per la definizione del linguaggio di markup dei documenti. Le prime specifiche provvisorie sono state pubblicate nel 1991 con il titolo Guidelines for Electronic Text Encoding and Interchange, TEI P1. Successive revisioni del linguaggio si sono avute nel 1992, TEI P2, nel quale la struttura della DTD è stata notevolmente rimaneggiata e nel 1994, TEI P3. Sull'onda del successo ottenuto dal linguaggio TEI, adottato in numerosi progetti accademici a livello internazionale, nel dicembre del 2000 i membri della Text Encoding Initiative hanno deciso di rendere permanente il progetto, costituendo il TEI Consortium[116], una organizzazione internazionale senza scopo di lucro fondata al fine di sostenere e mantenere lo sviluppo e la diffusione dello standard TEI. Il TEI Consortium ha i suoi uffici esecutivi a Bergen in Norvegia ed è ospitato da quattro università nel mondo: University of Bergen, Brown University, Oxford University, e University of Virginia. Il Consorzio è diretto da un Consiglio di Direzione e la sua attività tecnico-scientifica è controllata da un Consiglio elettivo. Le attività sono svolte tipicamente da piccoli gruppi internazionali di esperti, coordinati da due curatori, uno in Nord America e uno in Europa. Nel giugno del 2002 il TEI Consortium ha provveduto alla pubblicazione di una nuova versione dello schema di codifica, TEI P4, contraddistinto dalla piena conformità con XML, fattore questo che ha prepotentemente proiettato la TEI, sulla scorta del notevole successo di XML e delle tecnologie ad esso correlate, verso nuovi importanti sviluppi nell'ambito delle biblioteche digitali e del World Wide Web stesso.

III.2.1. Lo schema di codifica TEI

TEI è fondamentalmente un vocabolario XML (originariamente un'applicazione SGML) definito per mezzo di una DTD; le indicazioni sull'uso degli elementi definiti nella DTD sono contenute in documenti ufficiali, detti Guidelines, reperibili liberamente sul sito del Consorzio TEI[117]. I principi base che hanno ispirato gli estensori del linguaggio sono quelli di una codifica di tipo dichiarativo mirante alla descrizione di strutture logico-funzionali astratte del documento piuttosto che del suo aspetto fisico, in accordo in ciò con i fondamenti teorici dell'SGML, prima, e della sua recente evoluzione, l'XML, poi. La DTD TEI ripropone una sostanziale traduzione-trasposizione dei formalismi strutturali e funzionali convenzionalmente vigenti nei testi letterari nell'ambito dell'organizzazione strutturale degli elementi del linguaggio di marcatura.

Nota giustamente Fabio Ciotti: "Il modello descrittivo dei testi che sottende la TEI è basato su una formalizzazione delle convenzioni nella produzione di documenti testuali che sono state definite a partire dalla diffusione della stampa, e che sono state codificate fino al punto di divenire un vero e proprio schema di argomentazione (la divisone in capitoli, parti, paragrafi, etc., è un tipico esempio di questo fenomeno di determinazione dialettica tra modelli del pensiero e schemi imposti dagli strumenti di produzione intellettuale)"[118].

L'adozione di uno schema di codifica di tipo dichiarativo focalizzato sull'identificazione dei rapporti strutturali e funzionali presenti nel testo comporta, torniamo a citare Ciotti: "un apporto assolutamente soggettivo dello studioso-codificatore, che necessita di interpretare la funzione delle varie componenti strutturali tipografiche, o manoscritte, per essere in grado di impiegare in modo adeguato i marcatori per gli elementi previsti nella DTD della TEI"[119].

Si può ben capire, quindi, la necessità di una preparazione di tipo filologico umanistico del codificatore; la TEI è un linguaggio informatico di codifica dei testi letterari fatto da umanisti per umanisti, che comunque, come vedremo nel prosieguo della trattazione, può estrinsecare notevoli potenzialità anche in ambiti applicativi non strettamente "umanistici".

Sono oltre 500 gli elementi definiti dalla DTD TEI tanto che molte caratteristiche strutturali di un testo possono essere agevolmente sottoposte a differenti tipi di codifica. Lo schema TEI è caratterizzato da una forte modularità e prevede ampie possibilità di personalizzazione e di estensioni al fine di adattarsi a ogni esigenza di codifica testuale. Nella pratica la DTD è costituita da una serie di, per così dire, sotto DTD, dette DTD Fragments, che possono essere modulate e combinate fra di loro per ottenere uno schema di codifica che si attagli al meglio alle caratteristiche del testo da codificare. I DTD Fragments definiscono differenti gruppi di tag, detti Tag sets, che vengono combinati fra di loro per produrre uno schema adatto alla tipologia del testo da sottoporre a codifica.

Le Guidelines identificano tre gruppi di Tag sets:

TEI consente agli sviluppatori di personalizzare, ove se ne presenti la necessità, le DTD standard, inserendo nuovi tag ed entità ovvero modificando quelli esistenti grazie al cosiddetto auxiliary tag set. Al fine di aiutare gli utenti nella costruzione di versioni personalizzate della DTD nel sito del TEI Consortium si trova una applicazione Web, chiamata scherzosamente Pizza Chef[120] con cui è possibile senza grande sforzo "cucinarsi", per adottare l'ironica definizione usata nel sito dell'applicazione, la propria DTD.

Con l'obiettivo di favorire la diffusione della TEI la commissione editoriale del progetto ha prodotto una versione ridotta dello schema di codifica battezzandola TEI-Lite.

TEI-Lite è una DTD, che contiene soltanto un sottoinsieme degli elementi (circa 170) dell'intero sistema TEI, pur mantenendo la piena compatibilità e conformità con esso.

TEI-Lite è praticamente una versione semplificata dell'intero schema di codifica definito dalla TEI, creato per soddisfare le esigenze più comuni nella codifica dei testi, "per rispondere al 90% delle esigenze del 90% della comunità di utenti della TEI"[121] e facilitare la realizzazione di testi in formato elettronico compatibili con l'intero schema, senza richiedere lo studio di tutta la DTD. Al momento TEI-Lite è il sott'insieme di TEI più diffuso, è adottato in numerosi progetti di codifica testuale e nella creazione di archivi documentali. Esiste un manuale d'uso chiaro ed agevole per lo studio della TEI-Lite disponibile anche nella traduzione italiana curata da Fabio Ciotti[122].

Per il nostro progetto si è deciso di adottare proprio la DTD TEI-Lite in quanto rispondente alle nostre necessità, essendo il nostro esperimento di codifica rivolto principalmente a quelle che poterebbero essere le esigenze di costituzione e gestione di un corpus testuale. Tuttavia, in virtù della natura incrementale del markup TEI/XML anche questo primo stadio base di rappresentazione del testo costituisce un primo passo per la realizzazione di codifiche ulteriori orientate a finalità di ricerca specifiche.


[108] L'idea che spinse alla realizzazione del progetto TEI vide la luce durante un convegno tenutosi nel 1987 al "Vassar College" di Poughkeepsie a New York. Nel corso del convegno furono redatti i cosiddetti "Poughkeepsie Principles", ossia i principi base cui ci si sarebbe dovuti attenere nella ralizzazione di uno schema di codifica dei testi letterari per la ricerca umanistica.
[117] L'indirizzo da cui è possibile prelevare o consultare una copia delle direttive per la codifica è: <http://www.tei-c.org/P4X/>. Ne esiste anche un'edizione a stampa, per i tipi della University of Virginia Press (<http://www.upress.virginia.edu/books/tei.html>).
[118] Fabio Ciotti, Breve introduzione alla Text Encoding Initiative, in Biblioteca Italiana
<http://www.bibliotecaitaliana.it/tei_intro.asp>
1 dicembre 2003, (1 febbraio 2004).
[122] Burnard Lou, Sperberg-McQueen C. M., TEI Lite: introduzione alla codifica dei testi, trad. it. Fabio Ciotti, Guendalina Demontis, Giuseppe Gigliozzi, Massimo Guerrieri, Andrea Loreti in TEI Website
<http://www.tei-c.org/Lite/teiu5_it.htm>
(ed. orig. TEI U5: Encoding for Interchange: an introduction to the TEI, <http://www.tei-c.org/Lite/teiu5_en.tei>)
gennaio 1998.
<DigiSic />
[ AccessKey: Top=T Precedente=Z Successiva=C Indice=X?]