Ci era sfuggito, nella rassegna stampa che facciamo periodicamente, questo articolo di Michelangelo Zaccarello, pubblicato da Il Sole 24 Ore il 27 novembre 2017. Lo riportiamo ora, con qualche nota.
Scrive Zaccarello: «l’iniziativa LiberLiber-Progetto Manuzio, declinazione italiana del Project Gutenberg internazionale»
La frase può essere equivocata, è forse utile chiarire che, salvo la stima, nulla ci lega con il progetto Gutenberg. Liber Liber è una onlus italiana, indipendente.
Scrive Zaccarello: «La forza di tali progetti è nella quantità di titoli inseriti, più che nell’affidabilità di ognuno di essi»
Oggi Liber Liber ha circa 3.300 titoli, realizzati grazie a un lavoro minuzioso di trascrizione. La nostra forza non è nella quantità, del resto se così fosse dopo più di 20 anni di lavoro dei nostri volontari avremmo decine di migliaia di titoli, forse centinaia di migliaia. Non usiamo procedure automatiche, non ci affidiamo solo agli OCR. Ogni nostro testo subisce 4 fasi di revisioni, più di quelle che subiscono molti testi commerciali. I nostri ebook contengono pochissimi refusi, anche grazie alla collaborazione dei nostri circa 100.000 lettori mensili, che ci segnalano eventuali errori.
La nostra forza è nella qualità del lavoro. E’ questa a motivare i nostri volontari. E’ questa che li spinge a sacrificare settimane, mesi del loro tempo libero, a volte anni! I nostri volontari non sono motivati da una passione compulsiva per l’accumulo di file, ma dall’amore per i libri. Un amore che impone una trascrizione in digitale accurata, preceduta a volte da dibattiti che durano settimane su come riportare una formula matematica, o su come qualificare semanticamente il dialogo interiore di un personaggio.
Scrive Zaccarello: «il guadagno non è diretto, ma deriva dalla mole di utenti della piattaforma, attraverso la pubblicità»
Grazie ai banner pubblicati su Liber Liber, nel corso di tutto il 2017 abbiamo ricevuto da Google un totale di € 641,27 lordi. Come evidente, non è la pubblicità che fa sì che Liber Liber funzioni, ma le donazioni degli utenti, il 5 per mille e soprattutto lo sponsor E-text, che copre quasi tutte le spese. Perché E-text lo fa? Essendo sia presidente di Liber Liber, sia amministratore delle E-text, vorrei dire che lo faccio per dare lustro alla mia azienda. In realtà il ritorno di immagine è limitato. E-text sostiene Liber Liber perché il progetto, dopo 20 anni, mi regala ancora entusiasmo, perché mi consente di entrare in contatto con le persone migliori e perché credo che nel suo piccolo Liber Liber aiuti nella digitalizzazione del patrimonio letterario di pubblico dominio in lingua italiana. Non che fosse questo il nostro intento originale, pensavamo che presto o tardi un qualche progetto pubblico sarebbe intervenuto. Purtroppo non è successo.
Scrive Zaccarello: «ecco una moderna edizione elettronica che nasconde un testo invecchiato e profondamente diverso, nella forma e nella sostanza, da quello oggi accreditato in qualsiasi edizione cartacea»
Temo ci sia un equivoco di fondo, anche se frequente. Il nostro non è un progetto di casa editrice. Il nostro è un progetto di biblioteca digitale. Non pubblichiamo opere recenti né interveniamo redazionalmente sui contenuti. Il nostro scopo è conservare quanto è stato stampato.
Comprese le vecchie edizioni. Comprese le opere il cui curatore ha commesso degli errori. Correggiamo solo i refusi involontari, quando notiamo una scelta errata o discutibile la riportiamo comunque tale e quale, perché “correggerla” vorrebbe dire perdere memoria di quella specifica edizione.
Ovviamente nei limiti delle nostre possibilità cerchiamo di offrire più edizioni, così da consentire ai nostri lettori più scelta.
Scrive Zaccarello: «Tuttavia le stesse caratteristiche di quei testi minano alle fondamenta il processo di scansione OCR»
Scelgo questo passaggio per riassumere le considerazioni fatte sulle difficoltà legate alla tecnologia OCR. Considerazioni per lo più corrette e con le quali negli ultimi decenni abbiamo preso familiarità.
Ovviamente nessun volontario di Liber Liber pensa di affidarsi solo all’OCR. Per questo i nostri testi subiscono quattro fasi di revisione, da almeno due diversi gruppi di lavoro (questo perché di solito un gruppo di lavoro tende a non “vedere” i propri errori, non per cattiva fede ma per un noto fenomeno psicologico). E per questo in 20 anni abbiamo realizzato “solo” 4.800 titoli.
Ci sono anche altre problematiche legate a un testo elettronico sulle quali Zaccarello sorvola, ma che consideriamo importanti. Come l’interoperabilità del file che contiene il testo, la sua accessibilità anche ai portatori di handicap, la sua durata nel tempo, il suo essere uno standard aperto, l’essere libero dalle complicazioni introdotte dal DRM (al quale Liber Liber ha rinunciato), ecc.
Scrive Zaccarello: «fin quando prevarrà la logica del costo zero, è difficile sperare che la certificazione sia svolta da chi mette online i libri digitali»
Opinione legittima, ma dalla quale mi permetto di dissentire. L’affidabilità dei nostri testi è sotto gli occhi dei nostri utenti. Come pure è facile il confronto tra la qualità di impaginazione di un nostro ePub (spesso arricchito da tag semantici) e di una edizione commerciale.
Forse stimo troppo il lavoro dei nostri volontari, ma mi spingerei a dire il contrario: una edizione commerciale sarà sempre un compromesso tra qualità e costi, un equilibrio tre quante risorse si possono dedicare alla cura di un testo e gli introiti che questo può assicurare. Un testo offerto gratuitamente invece non si deve preoccupare di quanto costa realizzarlo, semplicemente perché la variabile costi è cancellata dall’equazione.
Noi ci prendiamo cura dei massimi capolavori della letteratura in lingua italiana semplicemente perché ci piace farlo. Solo questo rende possibile dedicare, in taluni casi, anche alcuni anni a un singolo titolo. Un qualsiasi editore sarebbe costretto a licenziare un curatore così pignolo. Noi lo accogliamo a braccia aperte.
Marco Calvo
presidente di Liber Liber
Ecco l’articolo integrale.
Bugiardo come un libro online
«fake» e letteratura italiana
Di Michelangelo Zaccarello
Nella vita di tutti i giorni, facciamo molta attenzione alla qualità: facciamo colazione con caffè fair trade e biscotti in cui non vogliamo olio di palma, beviamo acqua minerale con pochissimo sodio e ci informiamo accuratamente sui grassi contenuti nei vari cibi. Se però – ad esempio – vogliamo leggere sul nostro tablet un’opera della letteratura italiana, non facciamo abbastanza caso a ciò che scarichiamo da internet. C’è un curioso paradosso nell’uso che facciamo del web: prendiamo per buono quasi tutto ciò che vi troviamo, senza chiederci come vi è stato caricato né come “funziona” la risorsa al di là della semplice interfaccia che ci è offerta.
A partire dagli anni Novanta, si è assistito a una vera e propria corsa alla digitalizzazione di opere letterarie, specie se non soggette a diritti d’autore, ovvero di autori che siano deceduti da almeno settant’anni: per la letteratura italiana, questo include ormai Svevo, D’Annunzio e Pirandello. Dal commercio di biblioteche digitali su CD-ROM, come la Letteratura italiana Einaudi e la LIZ-Letteratura italiana Zanichelli si è presto passati a piattaforme online gratuite, almeno in apparenza, cioè sostenute da donazioni volontarie e/o da pubblicità, che possiamo esemplificare con l’iniziativa LiberLiber-Progetto Manuzio, declinazione italiana del Project Gutenberg internazionale.
Sulla homepage di quest’ultimo leggiamo che è prevista una revisione manuale dei testi digitalizzati: «We digitized and diligently proofread them with the help of thousands of volunteers», ma siamo proprio sicuri che sia così? La forza di tali progetti è nella quantità di titoli inseriti, più che nell’affidabilità di ognuno di essi. In molte di queste iniziative, che si presentano come gratuite, il guadagno non è diretto, ma deriva dalla mole di utenti della piattaforma, attraverso la pubblicità. Negli USA, si discute da tempo sugli importanti mutamenti che, nell’accesso ai testi e nelle pratiche di lettura, ha portato la digitalizzazione di massa (mass digitization): una crescita esponenziale di risorse liberamente consultabili in rete che ha forse allargato la base degli utenti dei testi letterari, ma ne ha certamente abbassato le esigenze.
Di questo nuovo “lettore Google” (definizione di Paola Italia, dell’Università di Bologna) è stata recentemente messa in luce l’assoluta mancanza di sensibilità per la qualità dei testi che legge, e in proposito esistono gravi responsabilità del sistema educativo, gestito da chi professionalmente interagisce con i Classici della letteratura italiana e la loro diffusione. In un circolo vizioso, la vasta disponibilità di e-texts gratuiti e liberamente scaricabili da qualunque dispositivo connesso al web si ricollega a pratiche di lettura frettolose e superficiali, in cui raramente l’opera è letta da cima a fondo. Si preferisce interrogarla per arrivare subito – attraverso ricerche di parole-chiave – al tema o alla sezione che interessa. Non a caso, un anonimo progettista dell’iniziativa Google Books, partita nel 2004 e arrivata a digitalizzare oltre venti milioni di libri, osservava anni fa che tale operazione non era finalizzata alla lettura dell’uomo ma a quella dell’intelligenza artificiale.
Poniamo che, per svolgere un compito scolastico o universitario, ci serva rapidamente un’edizione del Decameron di Giovanni Boccaccio. Se non l’abbiamo in casa, quanti di noi andrebbero in biblioteca? Con una semplice ricerca sul web, troviamo decine di e-texts del capolavoro boccacciano, spesso con una grafica accattivante (come quello di www.booksandbooks.it) e un’impaginazione accurata con font eleganti (come quello di www.letteraturaitaliana.net, derivato dalla Letteratura italiana Einaudi). Le soluzioni tecnologiche con cui vi si accede (tablet o lettori e-reader come il Kindle) sono aggiornate, ma i contenuti? Il lettore fa raramente caso alla fonte dalla quale è tratto il testo, che dovrebbe essere dichiarata nelle informazioni che corredano il file (tecnicamente dette metadati): nel primo dei due casi citati questi ultimi sono assenti, mentre nel secondo è dichiarata un’edizione di riferimento degli anni Cinquanta. Il dato è importante: l’autografo del novelliere boccacciano (oggi Berlin, Staatsbibliothek, Hamilton 90) è stato riconosciuto solo nel 1962, e oggi tutte le più importanti edizioni si basano su quel fedele testimone della volontà d’autore, fino alla recentissima edizione a cura di Maurizio Fiorilla (con Giancarlo Alfano e Amedeo Quondam, Rizzoli-BUR 2013).
Insomma, ecco una moderna edizione elettronica che nasconde un testo invecchiato e profondamente diverso, nella forma e nella sostanza, da quello oggi accreditato in qualsiasi edizione cartacea. Ma c’è di peggio. Alla base del fenomeno della digitalizzazione di massa sta l’uso sistematico di software OCR (Optical Character Recognition), in grado di leggere la scrittura tipografica in una fonte cartacea o nelle immagini da essa derivate. Esso rileva la forma delle singole lettere attraverso il contrasto sullo sfondo bianco (stroke edge technology) e ne confronta la sequenza con le parole contenute in un dizionario integrato. In tal modo, la leggibilità della pagina è strettamente connessa alla “regolarità” delle forme stampate: caratteri nitidi e di forma prevedibile, righe giustificate dal computer, e parole di uso comune possono offrire percentuali di successo elevate, ma quasi mai superiori al 95%, una percentuale che “ammette” comunque la presenza di circa 10-15 errori in una pagina di duemila caratteri. Ma che succede con opere scritte secoli fa, che impiegano una lingua preziosa, ma irta di vocaboli rari o forme oggi infrequenti?
Tornando al nostro esempio del Decameron, non c’è da stupirsi che molti nomi siano ricondotti agli equivalenti moderni (Guiglielmo diventa Guglielmo, Ghismunda diventa Ghismonda); altrettanto avviene con alcune delle forme arcaiche predilette da Boccaccio (veggendo diventa vedendo; prencipe diventa principe). Ma c’è ancora di peggio. Per la letteratura italiana fino all’Ottocento, la digitalizzazione OCR è spesso svolta non direttamente sul libro cartaceo, ma su scansioni già disponibili in rete attraverso Google Books o simili banche dati digitali. Nate da accordi con biblioteche universitarie americane, tali iniziative offrono scansioni di edizioni cartacee che recano esse stesse i segni del tempo: copie ingiallite e sbiadite creano problemi gravi all’occhio elettronico che ne estrae la scrittura, talvolta macchie o annotazioni rendono il tutto ancora più complicato.
Inoltre, in gran parte di questi libri “vintage” i caratteri hanno forme e dimensioni non del tutto simili ai moderni font di stampa, e la loro composizione e giustificazione sulla pagina è stata fatta a mano, ad esempio allargando gli spazi fra le singole lettere. Tutti questi problemi passano del tutto inosservati all’occhio umano, che è abituato a leggere ogni tipo di libro, e riesce non solo a decifrare la complessa mappatura di una pagina scritta (l’uso di diversi font, il rientro dei paragrafi, i titoli correnti in alto o nel margine), ma ne trae utili indicazioni d’uso, ad esempio per trovare una particolare sezione del testo. Tuttavia le stesse caratteristiche di quei testi minano alle fondamenta il processo di scansione OCR, perché ne ostacolano il primo passo: l’identificazione dei blocchi di testo (zoning) in pagine complesse, che contengono ad esempio illustrazioni o elementi ornamentali.
Forse la computer science riuscirà a migliorare i software OCR, anche se sembrano altre le priorità di tale sviluppo (il riconoscimento della scrittura manuale o di alfabeti non latini). Ma anche aguzzando la vista dell’occhio elettronico, difficilmente l’informatica potrà rimediare alla distrazione del lettore moderno, che ai testi accede in modo frettoloso e parcellizzato e non è in grado di riconoscerne gli errori. Un controllo di qualità servirebbe anche per i testi letterari: ma fin quando prevarrà la logica del costo zero, è difficile sperare che la certificazione sia svolta da chi mette online i libri digitali. Un maggiore grado di consapevolezza del lettore è, almeno nel medio termine, l’unico antidoto al rapido scadimento testuale dei Classici della nostra letteratura.
Bugiardo come un libro online : «fake» e letteratura italiana
Il Sole 24 Ore
Di Michelangelo Zaccarello
4 dicembre 2017
http://www.ilsole24ore.com/art/cultura/2017-11-27/bugiardo-come-libro-online-130155.shtml