OpenOffice.info

von **Constructus** » Fr, 08.05.2009 19:26

Hallo Christian,

Denkfehler? Hm, ich habe mich leider verleiten lassen, als ich mit der SuFu nach dem Thema "pdf in Text" hier im Forum gesucht habe. Da kamen in einem anderen Thread auch Hinweise, daß man das JPG erst in ein PDF umwandeln solle. Da hab ich im Moment erst garnicht beachtet, daß damit natürlich ein OCR erforderlich ist. Jetzt, wo Du's sagst...

Abbyy Fine Reader soll mittlerweile auch in einer Linux- Version (aber immer noch kommerziell) verfügbar sein (nicht nachgesucht). Aber auch ein russisches Tool ist neuerdings bekannt, ebenso für WIN wie für Linux: Cuneiform {X1} {X2}. Ocropus i. V. m. Tesseract sind ja vielleicht schon bekannt? Allerdings ist es möglich. daß meistens tiff statt JPG als Basis für erfolgreiches OCR verlangt wird.

Unaufgepaßt

Constructus

von **chrk** » Mi, 06.05.2009 18:23

Da hast Du aber einen Denkfehler, Constructus.

pdftotext funktioniert nur mit pdf, die aus Textobjekten bestehen.

Hier geht es aber um ein jpeg, und das ist für den Computer doch erst mal immer noch eine Ansammlung von Pixeln ohne jegliche Textinformation.

An der Tatsache kann auch der Export in ein pdf nichts ändern. Dann ist es nämlich ein pdf mit eingebettetem jpeg.

Im Adobe Acrobat (Standard, Pro oder Enterprise) gibt es eine OCR-Funktion, die ist aber nach meiner Erfahrung (Acrobat 6-8) nicht sonderlich gut in ihrer Erkennungsrate, und eine Edition von Abbyy Finereader oder OmniPage für den Hausgebrauch (und in der Windows-Welt) ist dann auch noch billiger.

von **Constructus** » Mi, 06.05.2009 17:28

Netter Gruß in die Runde,

per Tipp "van andern"

bin ich auf ein tool gestoßen, das zumindest unter Linux pdf direkt in Text (.txt) verwandelt.

"man pdftotext" auf der Anwenderkonsole kann hier vielleicht hilfreich sein.

Die Formatierungen des pdf sind im txt weitgehend weg, man kann allerdings mit Optionen auch vielleicht noch mehr erreichen. Der Pfad zur Quelldatei sollte der kürzeste Weg sein, Umleitungen will das tool nicht handhaben. {Bspw. funktioniert pdftotext /home/...Dateiname.pdf, nicht aber pdftotext media:/sda3/...Dateiname.pdf}

Viel Erfolg von

Constructus

von **volx-wolf** » Mi, 29.04.2009 15:07

Such nach (freien) Texterkennungs- bzw. OCR (Optical Character Recognition) Programmen. Neben dem genannten z.B. auch FreeOCR (Windows) oder GOCR (Linux, inzw. wohl auch für Windows).

von **hvb** » Mi, 29.04.2009 07:35

Hallo Reiki,
wie Sanne schon schrieb ist das Umwandeln mit OOo nicht möglich, dazu benötigst Du ein Programm zur Texterkennung. Wen Du einen Scanner hast, war vielleicht Omni Page oder der Abbyy FineReader dabei. Ansonsten versuch's doch mal mit TopOCR (http://www.topocr.com für Windows) - kostet nichts.

Viele Grüße
Martin

OpenOffice.info

jpg in text umwandeln mit oo möglich?!

Antwort erstellen

Ansicht erweitern Die letzten Beiträge des Themas: jpg in text umwandeln mit oo möglich?!

Re: jpg in text umwandeln mit oo möglich?!

Re: jpg in text umwandeln mit oo möglich?!

Re: jpg in text umwandeln mit oo möglich?!

Re: jpg in text umwandeln mit oo möglich?!

Re: jpg in text umwandeln mit oo möglich?!