{"id":191,"date":"2013-05-06T19:27:32","date_gmt":"2013-05-06T19:27:32","guid":{"rendered":"http:\/\/blog.datentraeger.li\/?p=191"},"modified":"2017-02-22T19:28:51","modified_gmt":"2017-02-22T19:28:51","slug":"tesseract","status":"publish","type":"post","link":"https:\/\/blog.datentraeger.li\/?p=191","title":{"rendered":"tesseract"},"content":{"rendered":"<p>Hab mal tesserect verwendet, um gescannte Dokumente mit einem OCR zu bearbeiten. Und ich bin begeistert \u2013 das funktioniert tadellos, wirklich super. \u00a0Als erstes hab ich mit simple-scan die (doppelseitigen) Dokumente gescannt. Das geht \u00fcbrigens mit meinem Fujitsu 5120 megaschnell (und dieses Ding h\u00e4tte eigentlich \u201centsorgt\u201d werden sollen\u2026kaum zu glauben). Ich hab der Bequemlichkeit ein einzelnes PDF gespeichert. Mit PDF-Dateien kann tesseract (meines Wissens) aber nichts anfangen. Naja, kein Problem, entweder halt schnell in evince die Seiten als tiff speichern oder imagemagick verwenden, falls es zuviele Seiten sind\u2026<\/p>\n<p>Dann k\u00f6nnen die Bilder \u201cgescannt\u201d werden<\/p>\n<pre lang=\"bash\" line=\"1\">tesseract -l deu p1.tiff p1<\/pre>\n<p>Bei mehreren Seiten kann ein for-loop verwendet werden, ein Momentchen warten und man hat die Bilder in Textformat. Und in meinen Versuchen kaum mit Fehlern drin. Wirklich geil.<\/p>\n<p>Auch recht \u201ckrumm\u201d gescannte Dokumente sind kein Problem f\u00fcr tesseract.<\/p>\n","protected":false},"excerpt":{"rendered":"Hab mal tesserect verwendet, um gescannte Dokumente mit einem OCR zu bearbeiten. Und ich bin begeistert \u2013 das funktioniert tadellos, wirklich super. \u00a0Als erstes hab ich mit simple-scan die (doppelseitigen) Dokumente gescannt. Das geht \u00fcbrigens mit meinem Fujitsu 5120 megaschnell (und dieses Ding h\u00e4tte eigentlich \u201centsorgt\u201d werden sollen\u2026kaum zu glauben).&hellip;\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[4,14,24],"tags":[],"class_list":["post-191","post","type-post","status-publish","format-standard","hentry","category-debiangnu-linux","category-multimedia","category-office"],"_links":{"self":[{"href":"https:\/\/blog.datentraeger.li\/index.php?rest_route=\/wp\/v2\/posts\/191","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.datentraeger.li\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.datentraeger.li\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.datentraeger.li\/index.php?rest_route=\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.datentraeger.li\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=191"}],"version-history":[{"count":1,"href":"https:\/\/blog.datentraeger.li\/index.php?rest_route=\/wp\/v2\/posts\/191\/revisions"}],"predecessor-version":[{"id":192,"href":"https:\/\/blog.datentraeger.li\/index.php?rest_route=\/wp\/v2\/posts\/191\/revisions\/192"}],"wp:attachment":[{"href":"https:\/\/blog.datentraeger.li\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=191"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.datentraeger.li\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=191"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.datentraeger.li\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=191"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}