Duplikate
Moderator: Moderatoren
Duplikate
Hallo,
ich bin am Verzweifeln. Ich habe ca. 5000 Url's in einer Zelle. Hauptseiten und Unterseiten:
http://www.xyz.de
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
http://www.maxmustermann.de
http://www.maxmustermann.de/schmidt/
http://www.maxmustermann.de/schmidt/frank
Jetzt möchte ich aber das alle Unterseiten:
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
http://www.maxmustermann.de/schmidt/
http://www.maxmustermann.de/schmidt/frank
entfernt werden. Sodass nur noch die Hauptseiten:
http://www.xyz.de
http://www.maxmustermann.de
bestehen bleiben.
Bei tausenden Einträgen ist das nicht mehr manuell zu machen. Wer kann mir helfen?
Vielen, vielen Dank
Difi
ich bin am Verzweifeln. Ich habe ca. 5000 Url's in einer Zelle. Hauptseiten und Unterseiten:
http://www.xyz.de
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
http://www.maxmustermann.de
http://www.maxmustermann.de/schmidt/
http://www.maxmustermann.de/schmidt/frank
Jetzt möchte ich aber das alle Unterseiten:
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
http://www.maxmustermann.de/schmidt/
http://www.maxmustermann.de/schmidt/frank
entfernt werden. Sodass nur noch die Hauptseiten:
http://www.xyz.de
http://www.maxmustermann.de
bestehen bleiben.
Bei tausenden Einträgen ist das nicht mehr manuell zu machen. Wer kann mir helfen?
Vielen, vielen Dank
Difi
Re: Duplikate
Boah ey — wirklich alle in einer einzigen Zelle?Difi hat geschrieben:5000 Url's in einer Zelle
Oder doch eher in einer Zeile? Oder in einer Spalte? Jedenfalls immer nur ein URL in einer Zelle?
Für den Fall »ein URL pro Zelle«:
Im Suchen & Ersetzen-Dialog
- Suchen nach: (http://[^/]*)/.*
- Ersetzen durch: $1
[Mehr Optionen] - [✓] Nur in Selektion (Optional)
- [✓] Regulärer Ausdruck
- [Ersetze alle] oder [Suchen] → [Ersetzen]
lorbass
PS: Was soll uns dein Betreff Duplikate in diesem Zusammenhang sagen? Wenn du alle Duplikate in deiner 5000er Liste identifizieren willst: Das ist fast schon eine Standardfrage in diesem Forum. Such bitte nach »Duplikate entfernen« oder »Duplikate löschen«.
Re: Duplikate
Hallo
→Daten→Filter→Standardfilter:
Feldname.. enthält nicht^http://[^/]*$
mit den Optionen:
Difi möchte anscheinend das nur die Unterseiten überbleiben, dein Suchausdruck macht genau diese kaputt.
Edit: Sorry, die eine Zeile... entfernt werden. Sodass nur noch die Hauptseiten: ...mitten drin hab ich nicht wahrgenommen, daher muss der obige Filterausdruck abgeändert werden auf
Feldname.. enthält ^http://[^/]*$
und zusätzlich brauchst du die Option:
→Daten→Filter→Standardfilter:
Feldname.. enthält nicht^http://[^/]*$
mit den Optionen:
- [x] regulärer Ausdruck
[x] Ausgabe nach woanders
Difi möchte anscheinend das nur die Unterseiten überbleiben, dein Suchausdruck macht genau diese kaputt.
Edit: Sorry, die eine Zeile... entfernt werden. Sodass nur noch die Hauptseiten: ...mitten drin hab ich nicht wahrgenommen, daher muss der obige Filterausdruck abgeändert werden auf
Feldname.. enthält ^http://[^/]*$
und zusätzlich brauchst du die Option:
- [x] ohne Duplikate
Zuletzt geändert von Karolus am Sa, 13.04.2013 15:05, insgesamt 2-mal geändert.
LO7.4.7.2 debian 12(bookworm) auf Raspberry5 8GB (ARM64)
LO25.2.3.2 flatpak debian 12(bookworm) auf Raspberry5 8GB (ARM64)
LO25.2.3.2 flatpak debian 12(bookworm) auf Raspberry5 8GB (ARM64)
Re: Duplikate
Sorry. Ja natürlich befindet sich jede URL in einer Zelle. Ich meine alle Daten befinden sich in einer Spalte...
Danke euch
Danke euch
Re: Duplikate
Ich vermute, dass Difi nur ungeschickt formuliert hat:Karolus hat geschrieben:@Lorbass:
Difi möchte anscheinend das nur die Unterseiten überbleiben, dein Suchausdruck macht genau diese kaputt.
Na ja, dies hat sich dann durch deine Korrektur schon erübrigt.Difi hat geschrieben:Jetzt möchte ich aber das alle Unterseiten:
http://www.xyz.de/weihnachten/
…
entfernt werden.
Sodass nur noch die Hauptseiten:
http://www.xyz.de
…
bestehen bleiben.
Gruß
lorbass
Re: Duplikate
So wie es lorbass beschrieben hat funktioniert es, das alle Daten nach dem / verschwinden. Vorher sah es so aus:
http://www.xyz.de
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
http://www.maxmustermann.de
http://www.maxmustermann.de/schmidt/
http://www.maxmustermann.de/schmidt/frank
Jetzt sieht es aber so aus:
http://www.xyz.de
http://www.xyz.de
http://www.xyz.de
http://www.maxmustermann.de
http://www.maxmustermann.de
http://www.maxmustermann.de
Wie kann man nun noch Filtern das von jeder URL nur noch eine da bleiben soll?
http://www.xyz.de
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
http://www.maxmustermann.de
http://www.maxmustermann.de/schmidt/
http://www.maxmustermann.de/schmidt/frank
Jetzt sieht es aber so aus:
http://www.xyz.de
http://www.xyz.de
http://www.xyz.de
http://www.maxmustermann.de
http://www.maxmustermann.de
http://www.maxmustermann.de
Wie kann man nun noch Filtern das von jeder URL nur noch eine da bleiben soll?
Re: Duplikate
Hallo
Karolus
Siehe meinen letzten geänderten BeitragWie kann man nun noch Filtern das von jeder URL nur noch eine da bleiben soll?
Karolus
LO7.4.7.2 debian 12(bookworm) auf Raspberry5 8GB (ARM64)
LO25.2.3.2 flatpak debian 12(bookworm) auf Raspberry5 8GB (ARM64)
LO25.2.3.2 flatpak debian 12(bookworm) auf Raspberry5 8GB (ARM64)
Re: Duplikate
Nimm Karolus' korrigierte(!) Lösung und aktiviere zusätzlich die Option [✓] Keine Duplikate.Difi hat geschrieben:Wie kann man nun noch Filtern das von jeder URL nur noch eine da bleiben soll?
Gruß
lorbass
Hat Karo jetzt auch schon drin

Re: Duplikate
Danke euch! So funktioniert es! 
Man muss die zusammengehörigen Domains alle Markieren und dann die Formel anwenden:
http://www.xyz.de
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
Das Ergebnis:
http://www.xyz.de
Gibt es jedoch auch eine Möglichkeit, um die Unterseiten zu entfernen, wenn ich alle Domains im Dokument markiere:
http://www.xyz.de
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
http://www.maxmustermann.de
http://www.maxmustermann.de/schmidt/
http://www.maxmustermann.de/schmidt/frank
Und am ende nur noch die Hauptdomains übrig bleiben:
http://www.xyz.de
http://www.maxmustermann.de?

Man muss die zusammengehörigen Domains alle Markieren und dann die Formel anwenden:
http://www.xyz.de
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
Das Ergebnis:
http://www.xyz.de
Gibt es jedoch auch eine Möglichkeit, um die Unterseiten zu entfernen, wenn ich alle Domains im Dokument markiere:
http://www.xyz.de
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
http://www.maxmustermann.de
http://www.maxmustermann.de/schmidt/
http://www.maxmustermann.de/schmidt/frank
Und am ende nur noch die Hauptdomains übrig bleiben:
http://www.xyz.de
http://www.maxmustermann.de?
Re: Duplikate
Genau das erreichst du doch, wenn du nach Karolus' Filter-Anleitung viewtopic.php?p=230922#p230922 vorgehst. Wo klemmt's denn jetzt noch?Difi hat geschrieben:Gibt es jedoch auch eine Möglichkeit, um die Unterseiten zu entfernen, wenn ich alle Domains im Dokument markiere
Gruß
lorbass
Re: Duplikate
Hallo lorbass,
ich glaube es liegt daran das ich im Filter doch einen Feldnamen angeben muss. Und genau darauf bezieht sich der Filter und wird angewendet. Aber eben nicht auf alle.?
Dort kann ich doch nur eine Domain (zb. http://www.xyz.de) angeben?
Difi
ich glaube es liegt daran das ich im Filter doch einen Feldnamen angeben muss. Und genau darauf bezieht sich der Filter und wird angewendet. Aber eben nicht auf alle.?
Dort kann ich doch nur eine Domain (zb. http://www.xyz.de) angeben?
Difi
Re: Duplikate
Das Vorgehen im Detail für deine sechs URLs:
Gruß
lorbass
- Selektiere alle sechs URLs, nicht mehr und nicht weniger
- Daten → Filter → Standardfilter
- Feldname: »– keiner –«
- Bedingung: »Enthält«
- Wert: »^http://[^/]*$«
- Mehr Optionen
- [✓] Regulärer Ausdruck
- [✓] Keine Duplikate
- [✓] Filterergebnis ausgeben nach
- Namen der ersten Zelle des Ausgabebereiches eingeben, z.B. C2
- OK
Gruß
lorbass
Re: Duplikate
Genau nach dieser Beschreibung kopiert er mir die gleichen Daten die Selektiert wurden in den Ausgabebereich. Duplikate werden nicht entfernt.
Ich habe dir die Datei mal angehangen.
Ich danke dir vielmals!
Difi
Ich habe dir die Datei mal angehangen.
Ich danke dir vielmals!
Difi
- Dateianhänge
-
- Duplikate.xls
- (7 KiB) 18-mal heruntergeladen
Re: Duplikate
Das ist eine Excel-Datei. Damit kann ich das von dir beschriebene Verhalten reproduzieren.
Meine Aussagen gelten für Calc-Dateien. Versuch's bitte damit.
Wenn es – aus welchen Gründen auch immer – unbedingt xls sein muss, kannst du die Suchen&Ersetzen-Lösung aus meiner ersten Antwort nehmen und die entstehende Liste in einem separaten zweiten Arbeitsschritt mit der Option [✓] Keine Duplikate filtern.
Ärgerlich bei der ganzen Geschichte ist nur, dass du mit der Info über das Fremdformat so spät und vermutlich auch noch aus Versehen rüberkommst.
Gruß
lorbass
Meine Aussagen gelten für Calc-Dateien. Versuch's bitte damit.
Wenn es – aus welchen Gründen auch immer – unbedingt xls sein muss, kannst du die Suchen&Ersetzen-Lösung aus meiner ersten Antwort nehmen und die entstehende Liste in einem separaten zweiten Arbeitsschritt mit der Option [✓] Keine Duplikate filtern.
Ärgerlich bei der ganzen Geschichte ist nur, dass du mit der Info über das Fremdformat so spät und vermutlich auch noch aus Versehen rüberkommst.
Gruß
lorbass
Re: Duplikate
Danke. Wünsche dir noch einen schönen Sonntag.
Difi
Difi