Codifica elettronica dei testi letterari ed e-book:
la marcatura XML TEI ed il trattamento informatico del romanzo Baltico di Matteo Collura

III.4. DIGITALIZZAZIONE

La prima fase della codifica elettronica dei testi consiste nella digitalizzazione delle fonti. Con la digitalizzazione si traspone il testo affidato al supporto materiale dal mondo degli atomi a quello dei bit. Nel caso che del testo da codificare esista una edizione a stampa moderna il codificatore è agevolato nella sua attività di copista digitale da strumenti quali lo scanner[128] ed i software di riconoscimento ottico dei caratteri (OCR)[129]. Dovendo invece trattare manoscritti o antichi testi a stampa, il codificatore, novello amanuense elettronico, deve necessariamente trascrivere manualmente il testo al computer. Per la prima digitalizzazione di Baltico, trattandosi di una edizione moderna ci siamo potuti giovare degli strumenti poco sopra detti.

Nel dettaglio abbiamo proceduto così: dapprima abbiamo acquisito con lo scanner tutte le circa duecento pagine del testo, le scansioni sono state effettuate alla risoluzione di trecento Dpi[130] in scala di grigi, i file di immagine delle pagine risultanti dalle scansioni sono stati salvati sul computer nel formato TIFF[131]. La scelta di una risoluzione di trecento punti per pollice in fase di acquisizione è stata fatta in quanto tale risoluzione rappresenta il minimo per ottenere discreti risultati con L'OCR, probabilmente se avessimo avuto a disposizione una periferica più veloce del nostro vecchio scanner piano con interfaccia parallela, come ad esempio i nuovi dispositivi con interfaccia Usb, ci saremmo orientati per una risoluzione intorno ai seicento punti per pollice. Abbiamo acquisito in scala di grigi in quanto, per esperienza personale, abbiamo potuto constatare che i software di riconoscimento ottico dei caratteri danno migliori risultati con questa profondità di colore rispetto al bianco e nero; nel nostro caso non avrebbe avuto senso acquisire a colori in quanto le scansioni da noi effettuate erano finalizzate esclusivamente alle attività di OCR e non all'attestazione delle condizioni e delle caratteristiche della fonte materiale, lavorando infatti su di un testo moderno tali elementi sono irrilevanti.

Una volta terminata la scansione delle pagine abbiamo sottoposto i file grafici ottenuti al software di riconoscimento ottico dei caratteri, nel nostro caso Omnipage Pro 11.0 della Scansoft; per lungo tempo il grande problema dei programmi di OCR è stato la scarsa accuratezza nel riconoscimento del testo ed in particolar modo delle lettere accentate e dei segni di interpunzione, ormai da qualche anno però il livello di precisione di questi strumenti è diventato decisamente elevato ed infatti il software da noi adoperato, peraltro uno dei migliori della categoria, soltanto in pochi casi non ha riconosciuto efficacemente alcuni caratteri.

Dopo aver effettuato l'OCR delle pagine ed avere corretto gli eventuali errori compiuti dal software abbiamo salvato i file ottenuti in formato puro testo (.txt), rimuovendo così tutte le informazioni di formattazione, non necessarie; inoltre, tutti i trattini di rimando a capo sono stati eliminati, ricongiungendo di conseguenza tutte le parole sillabate a fine riga[132].

Una volta compiute queste operazioni preliminari si è passati alla fase successiva del nostro lavoro: la codifica XML/TEI del testo.


[130] Il dpi, dall'inglese dots per inch, è un'unità di misura della risoluzione che indica il numero di punti per pollice da cui è composta un'immagine.
[131] Il TIFF (Tagged-Image File Format) è un formato di file molto utilizzato per la memorizzazione di immagini di tipo bitmap, tale formato utilizza un sistema basato su tag per la memorizzazione delle caratteristiche dell'immagine, supporta qualsiasi profondità cromatica ed è utilizzato soprattutto per lo scambio di file grafici fra piattaforme ed applicazioni diverse. Il TIFF adotta un metodo di compressione di tipo lossless ossia senza perdita di dati.
[132] Tale operazione è stata eseguita automaticamente grazie all'ausilio del programma OCR.
<DigiSic />
[ AccessKey: Top=T Precedente=Z Successiva=C Indice=X?]