Hallo,
ich habe ein sehr langes PDF-Dokument in dem sich u.a. EMail-Adressen befinden und möchte von Seite x bis y alle EMail-Adressen extrahieren.
Diese sollen dann später in ein Tabellendokument um vom EMail-Client gelesen werden zu können.
Den Inhalt des PDF's kann ich einfach in ein OpenOffice-Dokument kopieren, aber wie geht es dann weiter?
Ich müsste ihm ja quasi sagen: Kopiere jede zusammenhängende Zeichenkette in dem ein @ Zeichen vorkommt?
Wenn mir das jemand real erklären könnte, wäre ich sehr dankbar!
Morgendlicher Gruß,
Sess
(Gelöst) Extrahieren von Email-Adressen (Zeichenketten?)
Moderator: Moderatoren
(Gelöst) Extrahieren von Email-Adressen (Zeichenketten?)
Zuletzt geändert von Sess am Mi, 02.09.2009 12:15, insgesamt 1-mal geändert.
Re: Extrahieren von Email-Adressen (Zeichenketten?)
Hallo,
lade dir hier die Extension AltSearch runter und installiere sie.
Suche dann mit ihr unter dem Reiter Erweitert nach allen Mailadressen, nix ersetzen!
Schließe AltSearch, alle Mailadressen sind markiert, du kannst sie jetzt zur weiteren Verwendung in die Zwischenablage kopieren.
Ciao
lade dir hier die Extension AltSearch runter und installiere sie.
Suche dann mit ihr unter dem Reiter Erweitert nach allen Mailadressen, nix ersetzen!
Schließe AltSearch, alle Mailadressen sind markiert, du kannst sie jetzt zur weiteren Verwendung in die Zwischenablage kopieren.
Ciao
Windows 7
LO 5.0.2
Oo 4.1.2
LO 5.0.2
Oo 4.1.2
- komma4
- ********
- Beiträge: 5332
- Registriert: Mi, 03.05.2006 23:29
- Wohnort: Chon Buri Thailand Asia
- Kontaktdaten:
Re: Extrahieren von Email-Adressen (Zeichenketten?)
geht auch mit der eingebauten Suche:
Bearbeiten>Suchen&Ersetzen>Suchen nach[:alnum:]{1,}@[:alnum:]{1,}\.[:alnum:]{2,}
Mehr Optionen>Regulärer Ausdruck einschalten, dann Alle Suchen und die markierten Fundstellen kopieren.
Bearbeiten>Suchen&Ersetzen>Suchen nach[:alnum:]{1,}@[:alnum:]{1,}\.[:alnum:]{2,}
Mehr Optionen>Regulärer Ausdruck einschalten, dann Alle Suchen und die markierten Fundstellen kopieren.
Cheers
Winfried
aktuell: LO 5.3.5.2 30m0(Build:2) SUSE rpm, unter Linux openSuSE Leap 42.3 x86_64/KDE5
DateTime2 Einfügen von Datum/Zeit/Zeitstempel (als OOo Extension)
Winfried
aktuell: LO 5.3.5.2 30m0(Build:2) SUSE rpm, unter Linux openSuSE Leap 42.3 x86_64/KDE5
DateTime2 Einfügen von Datum/Zeit/Zeitstempel (als OOo Extension)
Re: Extrahieren von Email-Adressen (Zeichenketten?)
Bonzo: Danke, das klappt ja soweit gut! Er markiert alle Adressen, aber wenn ich die dann kopiere in ein leeres Dokument siehts gar nicht mehr rosig aus. Beim einfügen werden die Adressen verwurschtelt. Er macht hinter dem ".de" nicht schluss sondern gleich ohne leerzeichen mit der nächsten weiter und bricht dann irgendwann in der Zeile um. Somit müsste ich wieder jede einzelne bearbeiten was dem von hand kopieren gleich käme. :\ Was ich kann ich noch außer Kopieren/Einfügen groß anstellen?
Sanne: Auch dir Danke! Das kann ich noch nicht ganz nachvollziehen. Ich habe das Dokument in Die Tabelle eingefügt und jede Zeile startet in der A-Spalte. Wie es dann mit deinem Suchalgorhythmus weitergehen soll, verstehe ich nicht ganz. annst du mir das ein wenig genauer erklären?
Gruß,
Sess
Sanne: Auch dir Danke! Das kann ich noch nicht ganz nachvollziehen. Ich habe das Dokument in Die Tabelle eingefügt und jede Zeile startet in der A-Spalte. Wie es dann mit deinem Suchalgorhythmus weitergehen soll, verstehe ich nicht ganz. annst du mir das ein wenig genauer erklären?

Gruß,
Sess
Re: Extrahieren von Email-Adressen (Zeichenketten?)
Hey, stimmt gute Idee. 
Leider beginnt er nach dem Einfügen die zweite Adresse dann dennoch schon in der Vorherigen Zeile. Nur mit dem Unterschied das nun ein Leerzeichen zwischen de und dem beginn der zweiten adresse ist.
So sieht das aus:
adresse-abc.wald@schokolade.de adresse-
cde.wald@schokolade.de adresse-
efg.wald@schokolade.de adresse-
ghi.wald@schokolade.de
(...)
Und wenn ich das in ein Tabellendokument einfüge schreibt er das gleich alles in eine einzige Zelle. Er löscht beim Kopieren völlig die Information das das unterschiedliche Zeilen sind und macht daraus einen Textblock. Wie kann ich das verhindern?

Leider beginnt er nach dem Einfügen die zweite Adresse dann dennoch schon in der Vorherigen Zeile. Nur mit dem Unterschied das nun ein Leerzeichen zwischen de und dem beginn der zweiten adresse ist.
So sieht das aus:
adresse-abc.wald@schokolade.de adresse-
cde.wald@schokolade.de adresse-
efg.wald@schokolade.de adresse-
ghi.wald@schokolade.de
(...)
Und wenn ich das in ein Tabellendokument einfüge schreibt er das gleich alles in eine einzige Zelle. Er löscht beim Kopieren völlig die Information das das unterschiedliche Zeilen sind und macht daraus einen Textblock. Wie kann ich das verhindern?
Re: Extrahieren von Email-Adressen (Zeichenketten?)
Dann macht er hinter allen "de" einen Umbruch. ".de" bleibt unangetastet. Ignoriert er den Punkt?
Re: (Gelöst) Extrahieren von Email-Adressen (Zeichenketten?)
Super hat geklappt.
Danke!
