OCR Text in Tabelle umwandeln

Das Tabellenkalkulationsprogramm

Moderator: Moderatoren

aupex
Beiträge: 7
Registriert: Mi, 21.01.2009 20:27

OCR Text in Tabelle umwandeln

Beitrag von aupex »

Hallo,

Ich bin gerade dabei die Rechnungen meines Lieferanten (PDF Format) mit einem OCR in Text umzuwandeln.
Jetzt möchte ich diesen Text in einer Tabelle einfügen. Natürlich in Spalten wie z.b. Art.Nr., Menge, EK-Preis, VK, usw.
Leider ist der Text nicht per Komma o.ä. getrennt (Siehe Beispiel). Wenn ich nach Leerzeichen Trenne wird im unteren Beispiel "Marlboro" und "Hülsen" in 2 Spalten gepackt.
Gibt es eine andere Möglichkeit als alles von Hand einzutragen?

Gruss


Beispielzeile aus der OCR-Ausgabe

4041 1 KAR 5 200er Pg 970923 Marlboro Hülsen Gold ?,??? 4,00 19,00 1,80 9,00
4051 1 KAR 5 200er Pg 970930 Marlboro Hülsen Red ?,??? 4,00 19,00 1,80 9,00

Die ??? sind mein EK-Preis
Eddy
********
Beiträge: 2781
Registriert: So, 02.10.2005 10:14

Re: OCR Text in Tabelle umwandeln

Beitrag von Eddy »

Hallo aupex,
aupex hat geschrieben: (PDF Format) mit einem OCR in Text umzuwandeln.
warum das? Ist das ein "aus einem Scan" (Grafik) generiertes PDF? Wenn nicht, liegen die Daten als Text vor und Du kannst den Text direkt erhalten.
aupex hat geschrieben:Gibt es eine andere Möglichkeit als alles von Hand einzutragen?
Möglicherweise. Im Writer mit Bearbeiten > Auswahlmodus > Blockbereich passend markieren und danach mit Suchen und Ersetzrn die Leerzeichen gegen z.B. den Unterstrich tauschen.

Mit ausgetauschten Grüßen

Eddy
Zuletzt geändert von Eddy am Di, 26.06.2012 12:35, insgesamt 1-mal geändert.
Karolus
********
Beiträge: 7532
Registriert: Mo, 02.01.2006 19:48

Re: OCR Text in Tabelle umwandeln

Beitrag von Karolus »

Hallo

Ich sehe da kein verlässliches Muster welches der Leerzeichen nun keinen Spaltentrenner representiert - kannst du eine Regel definieren nach der $Software trennt/nicht_trennt ??

Ps.Was kann dein OCR ? - kannst du dort evtl. einstellen das die "Spalten" aus dem .pdf mit Tabulator statt Leerzeichen getrennt werden ?

Karo
LO7.4.7.2 debian 12(bookworm) auf Raspberry5 8GB (ARM64)
LO25.2.3.2 flatpak debian 12(bookworm) auf Raspberry5 8GB (ARM64)
aupex
Beiträge: 7
Registriert: Mi, 21.01.2009 20:27

Re: OCR Text in Tabelle umwandeln

Beitrag von aupex »

Hallo,

Danke erstmal.

Ich benutze FreeOCR. Keine Einstellmöglichkeit gefunden.
Eine Regel definieren ist leider nicht möglich, da es Artikelbez. mit einem oder mehreren Wörtern gibt.
Das PDF ist kein gescanntes Dokument sondern auswählbarer Text. (hätte ich ja auch draufkommen können).
Wie kann ich diesen Text formatiert einfügen?

Gruss
Eddy
********
Beiträge: 2781
Registriert: So, 02.10.2005 10:14

Re: OCR Text in Tabelle umwandeln

Beitrag von Eddy »

Hallo aupex,
aupex hat geschrieben:Wie kann ich diesen Text formatiert einfügen?
über die Zwischenablage mit Strg+v?

Mit der passenden Extension kannst Du PDFs in OO/LO öffnen.

Füge erst in den Writer ein, dort kannst Du den Text nach meiner Meinung besser bearbeiten.

Wenn wir wüssten, mit welchem Betriebssystem Du arbeitest, könnten wir Dir möglicherweise zu geeigneteren PDF Readern raten. Oder zu anderem Vorgehen.
Der Adobe Reader X z.B. kann PDFs in Word oder Excel Dokumente wandeln.

Mit eingefügten Grüßen

Eddy
aupex
Beiträge: 7
Registriert: Mi, 21.01.2009 20:27

Re: OCR Text in Tabelle umwandeln

Beitrag von aupex »

Hallo,
Sorry vergesse ich immer wieder...
OS ist Win Vista.
Benutze im moment Acrobat 7.
Eddy
********
Beiträge: 2781
Registriert: So, 02.10.2005 10:14

Re: OCR Text in Tabelle umwandeln

Beitrag von Eddy »

Hallo aupex,

Acrobat Reader X (zehn) unter Windows 7 kann PDFs in Word und Excel Dateien konvertieren. Probiere einfach den aktuellen Acrobat Reader.
Antworten