von chrk » Mi, 06.05.2009 18:23
Da hast Du aber einen Denkfehler, Constructus.
pdftotext funktioniert nur mit pdf, die aus Textobjekten bestehen.
Hier geht es aber um ein jpeg, und das ist für den Computer doch erst mal immer noch eine Ansammlung von Pixeln ohne jegliche Textinformation.
An der Tatsache kann auch der Export in ein pdf nichts ändern. Dann ist es nämlich ein pdf mit eingebettetem jpeg.
Im Adobe Acrobat (Standard, Pro oder Enterprise) gibt es eine OCR-Funktion, die ist aber nach meiner Erfahrung (Acrobat 6-8) nicht sonderlich gut in ihrer Erkennungsrate, und eine Edition von Abbyy Finereader oder OmniPage für den Hausgebrauch (und in der Windows-Welt) ist dann auch noch billiger.
Da hast Du aber einen Denkfehler, Constructus.
pdftotext funktioniert nur mit pdf, die aus Textobjekten bestehen.
Hier geht es aber um ein jpeg, und das ist für den Computer doch erst mal immer noch eine Ansammlung von Pixeln ohne jegliche Textinformation.
An der Tatsache kann auch der Export in ein pdf nichts ändern. Dann ist es nämlich ein pdf mit eingebettetem jpeg.
Im Adobe Acrobat (Standard, Pro oder Enterprise) gibt es eine OCR-Funktion, die ist aber nach meiner Erfahrung (Acrobat 6-8) nicht sonderlich gut in ihrer Erkennungsrate, und eine Edition von Abbyy Finereader oder OmniPage für den Hausgebrauch (und in der Windows-Welt) ist dann auch noch billiger.