tesseract
Hab mal tesserect verwendet, um gescannte Dokumente mit einem OCR zu bearbeiten. Und ich bin begeistert – das funktioniert tadellos, wirklich super. Als erstes hab ich mit simple-scan die (doppelseitigen) Dokumente gescannt. Das geht übrigens mit meinem Fujitsu 5120 megaschnell (und dieses Ding hätte eigentlich “entsorgt” werden sollen…kaum zu glauben). Ich hab der Bequemlichkeit ein einzelnes PDF gespeichert. Mit PDF-Dateien kann tesseract (meines Wissens) aber nichts anfangen. Naja, kein Problem, entweder halt schnell in evince die Seiten als tiff speichern oder imagemagick verwenden, falls es zuviele Seiten sind…
Dann können die Bilder “gescannt” werden
tesseract -l deu p1.tiff p1
Bei mehreren Seiten kann ein for-loop verwendet werden, ein Momentchen warten und man hat die Bilder in Textformat. Und in meinen Versuchen kaum mit Fehlern drin. Wirklich geil.
Auch recht “krumm” gescannte Dokumente sind kein Problem für tesseract.