FreeOCR.net: OCR gratuito e multilingue

Scritto da Stefano | 19 gennaio, 2011 8:00

Ti è mai capitato di dover riscrivere un documento perché ne hai solo una fotocopia o un file non editabile (PDF o immagine)?  Quello che serve in questi casi è un software di riconoscimento ottico dei caratteri (Optical Character Recognition o OCR) che letteralmente “legge” il documento e prova ad identificare le  parole e i caratteri visivamente. FreeOCR.net è un programma di questo tipo.

FreeOCR.net esegue il riconoscimento ottico dei caratteri su immagini o file PDF che hanno un’origine digitalizzata. È possibile elaborare i file PDF, TIF, BMP, JPG e PNG ed ha anche una funzione di acquisizione dei documenti da uno scanner. La semplice interfaccia utente consente di escludere gli elementi non testuali (come immagini o tabelle), anche se deve essere fatto manualmente.

Per documenti di più pagine, ogni pagina deve essere elaborata separatamente, sebbene FreeOCR potrà riunire l’output in un unico testo. FreeOCR.net è basato sul motore OCR open source Tesseract con il supporto della lingua inglese preinstallato, è comunque possibile scaricare e aggiunte molte altre lingue (comprese le lingue non basate sui caratteri latini come giapponese, coreano, indonesiano, ecc..)

Questo è un’ottimo  programma OCR base che fa bene il suo lavoro. Funziona molto bene per un uso occasionale, o almeno per documenti brevi. È possibile elaborare documenti lunghi (ebooks, ecc.), ma in questo caso si farebbe meno fatica con una applicazione professionale (e a pagamento) disponibile sul mercato.

PRO:

  • Motore potente: produce risultati eccellenti in generale, almeno per le lingue che ho provato (inglese e italiano). Si noti che è consigliabile sottoporre a scansione immagini di almeno 200 dpi.
  • Formati supportati: elaborazione di PDF e della maggior parte dei tipi di file immagine (non si limita ai TIF come fanno molti altri).
  • Supporta una vasta gamma di lingue: l’inglese è  preinstallato, ma possono essere installate altre lingue separatamente (vedi qui). Tra le lingue possiamo trovare; italiano, francese, tedesco, spagnolo, catalano vietnamita, Bangla, ceco, olandese, polacco, lituano, lettone, bulgaro, ungherese di greco, indonesiano, slovacco, ucraino, giapponese, coreano, norvegese, russo, serbo, turco, Tagalog, romeno, cinese (tradizionale e semplificato) e svedese.
  • Interfaccia semplice: permette di selezionare porzioni di testo, utile ad esempio per aggirare immagini ed altri elementi.

CONTRO:

  • Non elabora pagine in batch: è stato progettato per elaborare una pagina alla volta,il  che limita la sua utilità per documenti di grandi dimensioni.
  • Nessuna elaborazione post-OCR: come per esempio il controllo ortografico.
  • Nessun “apprendimento” assistito dall’utente: funzione utilizzata da alcuni altri pacchetti commerciali di OCR per migliorare la comprensione del testo.

Il verdetto: un’ottima soluzione OCR Gratuita. Se devi  convertire occasionalmente un documento digitalizzato in testo modificabile, questo programma ti sarà utilissimo. Tuttavia, se è necessario processare centinaia di pagine, in teoria questo programma può farlo ma si dovrà fare molto lavoro (comunque molto meno di riscrivere tutto!).

Anche se ho provato solo l’italiano e l’inglese, il supporto multilingua è sicuramente degno di nota. Se lo utilizzerai per altre lingue (specialmente non latine), ti prego di comunicarci la tua valutazione nei commenti. Grazie.

Versione testata: 3.0

Compatibilità: Windows 2000, 2003, XP, Vista, Windows 7.

Vai alla Home page del programma per scaricarlo.

Una risposta a “FreeOCR.net: OCR gratuito e multilingue”

  1. Danilo scrive:

    Installa un “programmino” da 157kb che richiama il “programmone” di ben 3MB …
    Non c’è modo di fare il download completo subito ?
    Grazie

Lascia un Commento