Per quanto possa sembrare strano a dirsi, un computer non è in grado di leggere, nel senso che non è in grado di elaborare un concetto sulla scorta di parole scritte e riconosciute.
Il riconoscimento semantico è avanzato certo e anche la tecnologia di riconoscimento ottico, ma ancora la reale comprensione non può essere messa in atto da un computer.
Per ovviare a questo limite, i computer utilizzano un sistema che viene detto “riconoscimento formale”, ovvero che provvede a riconoscere la forma di un oggetto (anche bidimensionale come nel caso dei caratteri scritti.
I programmi OCR (la sigla sta per Optical Character Recognition) sono quei programmi dedicati al riconoscimento ottico dei caratteri che poi verranno utilizzati in altri applicativi.
All’inizio il programma provvede a distinguere le forme dei caratteri da tutte le altre che non c’entrano, come macchiette sulla pagina, disegni o segni di vario genere e tipo.
Successivamente a questo passo quello che avanza viene confrontato con il contenuto di un database dedicato, tramite un algoritmo che fornisce una probabilità di corrispondenza tra una forma e un carattere. Se la probabilità riscontrata supera una soglia prefissata (abitualmente intorno al 95%) allora il riconoscimento viene considerato verificato e il corrispondente carattere inserito nel risultato da stampare.
Se il riconoscimento non riesce a raggiungere la soglia in questione invece, viene segnalato come probabile e, a seconda del programma OCR utilizzato, viene fornita la scelta decisionale tra i candidati più verosimili.
Nel caso di alcuni programmi particolarmente evoluti, il risultato della frase (e non del singolo carattere o della singola parola) viene sottoposto ad un’analisi semantica che cerca di verificare quale sia la parola più probabile da trovare in una data posizione all’interno di un discorso.
In questo modo la precisione riscontrata aumenta in modo esponenziale.
Alla fine dell’operazione viene fornito un file, pronto per la correzione manuale da parte di un operatore umano.
I programmi OCR trovano la loro applicazione in moltissime procedure, tra cui alcune sotto gli occhi di tutti e di uso quotidiano, come nel caso di alcune operazioni di posta e da parte dell’INPS e altre amministrazioni.
Tra i programmi Ocr più famosi in Italia c’è quello di Datasis, visita il loro sito per tutte le informazioni.