datentraeger

geistige Umweltverschmutzung

tesseract

May 6, 2013 Debian/GNU Linux Multimedia Office

Hab mal tesserect verwendet, um gescannte Dokumente mit einem OCR zu bearbeiten. Und ich bin begeistert – das funktioniert tadellos, wirklich super.  Als erstes hab ich mit simple-scan die (doppelseitigen) Dokumente gescannt. Das geht übrigens mit meinem Fujitsu 5120 megaschnell (und dieses Ding hätte eigentlich “entsorgt” werden sollen…kaum zu glauben). Ich hab der Bequemlichkeit ein einzelnes PDF gespeichert. Mit PDF-Dateien kann tesseract (meines Wissens) aber nichts anfangen. Naja, kein Problem, entweder halt schnell in evince die Seiten als tiff speichern oder imagemagick verwenden, falls es zuviele Seiten sind…

Dann können die Bilder “gescannt” werden

tesseract -l deu p1.tiff p1

Bei mehreren Seiten kann ein for-loop verwendet werden, ein Momentchen warten und man hat die Bilder in Textformat. Und in meinen Versuchen kaum mit Fehlern drin. Wirklich geil.

Auch recht “krumm” gescannte Dokumente sind kein Problem für tesseract.

Wheezy ist stable

Postgres nach MySQL

Search
Posts
  • tt-rss update
  • freerdp ERRCONNECT_TLS_CONNECT_FAILED
  • Windose – kein Internet
  • Rechner ohne IP
  • Goodbye Nvidia
Archives
Categories
Tags
3D-Printing Android Apple Arch BBOS/QNX cli Container Database Debian/GNU Linux Docker foo.li FSFE fvwm git Gnome Gnusocial Groupware irc IT Java LaTeX lvm Mail Mobile Movies Multimedia Music Nonsense Office Packaging PHP Puppet Redmine SQL Think-About Uncategorized Vaping vim Virtualisierung Web Win WTF www-links X11 XMPP
Meta
  • Log in
  • Entries feed
  • Comments feed
  • WordPress.org
Blogroll
  • Datentraeger Pics
  • foo.li systeme + software
  • GnuSocial.li
Proudly powered by WordPress | Theme: Doo by ThemeVS.