Codifica elettronica dei testi letterari ed e-book:
la marcatura XML TEI ed il trattamento informatico del romanzo Baltico di Matteo Collura

III.6. LA CODIFICA DI BALTICO

Sebbene il primo elemento di un documento TEI sia il <teiHeader>, entrando nel vivo della descrizione della codifica di Baltico, preferiamo iniziare l'esposizione illustrando le attività compiute a partire dal secondo elemento il <text>, il quale ospita i contenuti testuali dell'opera; infatti, una volta viste le modalità di codifica del testo sarà più semplice comprendere il contenuto dei metadati del <teiHeader>.

III.6.1. <front>

Il primo elemento figlio di <text> è <front>, all'interno di questo tag sono contenuti tutti i materiali di tipo avantestuale (testate, frontespizio, prefazioni, dediche, etc.), che si trovano prima dell'inizio vero e proprio del testo. Come detto il nostro lavoro si è limitato esclusivamente al contenuto testuale della fonte, tutti i materiali paratestuali non d'autore sono stati tralasciati, nello specifico la trascrizione e codifica di Baltico hanno avuto inizio dalla pagina cinque del testo fonte, contenente il frontespizio interno dell'opera, prima di questa pagina il volume contiene l'indicazione della collana ed una foto dell'autore Matteo Collura, queste pagine insieme alla pagina sei contenente l'indicazione del copyright sono state omesse nella codifica.

Riportiamo di seguito un'immagine che mostra come appare nel testo fonte la pagina del frontespizio interno da cui ha preso avvio la codifica e subito dopo quella stessa pagina codificata.

Il frontespizio della versione cartacea di Baltico

 

<titlePage>
<docAuthor>
<name type="persona.real">MATTEO COLLURA</name>
</docAuthor>
<docTitle>
<titlePart type="main">BALTICO</titlePart>
<titlePart type="sub">Un'epopea siciliana</titlePart>
</docTitle>
<docImprint>
BIBLIOTECA - <publisher>REVERDITO EDITORE</publisher>
</docImprint>
</titlePage>

L'analisi parallela sia della rappresentazione grafica della fonte, sia della rispettiva codifica ci permette subito di fare due importanti considerazioni.

La codifica TEI/XML, essendo di tipo dichiarativo, è focalizzata sulla descrizione delle strutture funzionali del testo e non sul suo aspetto, che pure in questa pagina, presa ad esempio, è molto vario. I tag, che fra poco illustreremo nel dettaglio, esplicitano ruolo e funzione delle porzioni di testo non la loro formattazione, che semmai sarà applicata in un momento successivo per mezzo di adeguati strumenti. Il grande pregio della codifica dichiarativa è di dare significato al testo soprattutto a beneficio di agenti software; pensiamo, ad esempio, ad un motore di ricerca che venga interrogato per trovare tutti i libri dal titolo Baltico: potrà sicuramente individuare con grande precisione quei testi, in cui il titolo è identificato per mezzo di un'etichetta che indica "questo è un titolo", come <docTitle>, a differenza invece di un'etichetta che dica "questa è una sequenza di caratteri in corpo 20 grassetto Times".

La seconda considerazione riguarda il fatto che la codifica segue perfettamente l'ordine del testo fonte. Passando all'analisi del testo codificato vediamo che l'elemento <titlePage>, primo figlio di <front>, racchiude una serie di altri elementi che illustrano nel dettaglio la pagina del frontespizio. Il primo di questi è <docAuthor> il quale contiene il nome dell'autore, codificato a sua volta per mezzo del tag <name> accompagnato dall'attributo persona.real, vedremo meglio nel prosieguo della trattazione le caratteristiche di questo elemento.

La parte del frontespizio dedicata al titolo dell'opera è contenuta nell'elemento <docTitle>, al cui interno è codificata per mezzo di uno o più elementi <titlePart>; l'attributo type di questo tag viene adoperato per distinguere funzionalmente le diverse parti del titolo, con main si indica il titolo principale "Baltico", con sub il sottotitolo "Un'epopea siciliana". Per il valore di questi attributi ci siamo rifatti ai suggerimenti forniti nelle guidelines TEI, i testi TIL preferiscono al valore main consigliato dal manuale TEI un più italiano princ, mentre in GriseldaOnLine si riscontrano ambedue gli usi. È opportuna una precisazione, in molti casi la DTD lascia ampia libertà al codificatore nella scelta del valore da dare agli attributi, ad esempio nel caso di type di <titlePart> la DTD si presenta così: type CDATA "main", questa porzione di codice della DTD specifica che l'attributo type può avere come valore una qualsiasi sequenza di caratteri consentiti (CDATA) e che il valore di default dell'elemento, nel caso in cui l'attributo venga omesso è main; tuttavia nella maggior parte dei casi gli attributi vengono specificati in questa forma: nome_attributo CDATA #IMPLIED , stabilendo che l'attributo è facoltativo e non ha un valore di default; tutto ciò comporta che spesso per indicare la stessa cosa si ricorra a definizioni diverse nei vari progetti di codifica, per questo motivo, in mancanza di linee guida generali, al fine di mantenere una certa uniformità e coerenza con le pratiche di codifica relative almeno al territorio nazionale, abbiamo cerato di rifarci agli altri lavori analoghi esistenti in Italia. L'elemento <docImprint>, che chiude il nostro <titlePage>, contiene le informazioni relative all'editore, alla data ed al luogo di pubblicazione dell'opera così come sono presentate nel frontespizio; al suo interno vanno usati gli elementi <docDate>, <publisher> e <pubPlace> per codificare rispettivamente la data di pubblicazione, l'editore ed il luogo di pubblicazione. Nel caso di Baltico il frontespizio contiene il nome della collana e l'editore, mentre il nome di quest'ultimo è opportunamente codificato per mezzo del tag <publisher>, la DTD non prevede un elemento specifico per la collana[140] all'interno del tag <docImprint>, tuttavia consente di inserire un qualsiasi contenuto testuale (#PCDATA), pertanto abbiamo inserito il nome della collana, "Biblioteca", senza applicarvi alcuna codifica specifica.

Subito dopo la pagina del frontespizio e prima dell'inizio del contenuto della narrazione, il testo fonte presenta una dedica e due epigrafi, verosimilmente riconducibili all'autore dell'opera, pertanto sono state incluse all'interno del tag front essendo materiali dell'avantesto. Queste tre partizioni sono state codificate per mezzo di blocchi di tipo <div> accompagnati da attributi type che ne specificano la funzione, i valori di questi attributi si rifanno al progetto TIL. Di seguito riportiamo il codice della dedica e delle due epigrafi:

<div type="ded" rend="italic">
<p>A Bartolomeo Collura, mio padre.</p>
</div>

Il valore ded dell'attributo type specifica che si tratta di una dedica, il secondo attributo rend indica che il testo della dedica è in corsivo. rend è un attributo globale, che può essere associato a quasi ogni elemento, il quale serve a definire alcune informazioni di tipo stilistico, in questa circostanza precisa che il testo nell'edizione fonte è in corsivo. Nonostante la natura prettamente dichiarativa dello schema TEI in taluni casi può essere utile fornire alcune informazioni relative alla formattazione del testo. Nel corso della nostra codifica questo attributo è stato usato solo poche volte col valore italic, per indicare dove il testo era in corsivo, corsivo che per altro abbiamo ritenuto riconducibile alla volontà dell'autore. Si noti che il testo della dedica è racchiuso dall'elemento <p>, in quanto il tag <div> serve solo a delimitare le macro-partizioni del testo, al suo interno non è consentito inserire testo, questo invece deve essere posto dentro il tag <p> il quale serve a delimitare le micro-partizioni del testo ossia i paragrafi.

Subito dopo la dedica incontriamo le due epigrafi:

<div type="ep">
<p>Contagiati dal delirio delle escavazioni, subito accompagnato dalla comparsa di affaristi scrocconi, si scoprirono impensate doti di imprenditori; e sventrando valli e colline sognarono di arricchire, mentre copioso colava lo zolfo e si ampliavano i cimiteri. Due secoli di picconate cambiarono la faccia della terra. Subito si appales&#242; il disastro, ma in quel turbinio di fortune immaginate nessuno vi fece caso. Corsero ai ripari quando gi&#224; il vento screpolava gli spalti delle zolfare e le erbacce cominciavano a nasconderne le bocche. Fu come se un'ostinata bonaccia si fosse posata su un mare che era stato in tempesta. Non lontano dai ruderi, oziosi, aspettarono sussidi e pensioni; e polvere e silenzio sedimentarono sulla loro assurda epopea.</p>
</div>
<div type="ep">
<q type="citazione">
Zufolava mentre andava al lavoro e parlava spesso di un futuro di benessere e di abbondanza.
<bibl>
<author>
<name type="persona.real">SHERWOOD ANDERSON</name>,
</author>
<title rend="italic">Un povero bianco.</title>
</bibl>
</q>
</div>

La prima epigrafe non presenta particolari problemi, si noti soltanto l'uso delle entità numeriche al posto delle lettere accentate.

La seconda epigrafe invece è costituita da una citazione per questo motivo è racchiusa dal tag <q> con valore citazione, il riferimento bibliografico è codificato mediante gli opportuni tag. L'elemento <q> è usato per marcare citazioni e manifestazioni di discorso o di pensiero non espresse direttamente dalla voce narrante, come vedremo meglio in seguito, <q> viene adoperato sopratutto per la rappresentazione del discorso dei personaggi o di chi parla. La DTD TEI prevede l'elemento <quote> per la marcatura delle citazioni come quella della nostra epigrafe, ed infatti tale tag viene adottato in TIL, mentre la DTD TEI-Lite non lo include, pertanto come indicato nel manuale TEI-Lite abbiamo utilizzato il tag <q> anche per le citazioni associandovi il valore citazione per mezzo dell'attributo type.


[140] Tale informazione è comunque presente nel teiHeader.
<DigiSic />
[ AccessKey: Top=T Precedente=Z Successiva=C Indice=X?]