:: Buchempfehlung ::

zorromaus · #1 29.10.2004, 11:16:03

folgendes problem habe ich:

in einer datenbank mit mehreren tausend datensätzen gibt es massenhaft doppelte einträge (eMail-adressen) jetzt suche ich nach einer suchroutine und will dann die doppelten datensätze löschen bzw. ausfiltern.
ich habe schon überlegt mir z.b. den 1. datensatz vorzunehmen und dann mit den anderen datensätzen zu vergleichen,
dann den 2. datensatz, den 3. datensatz usw......
jetzt stelle ich aber fast das dieses schema ja ne halbe ewigkeit dauert. hat jemand einen besseren und vor allem schnelleren ansatzpunkt wie ich die doppelten datensätze herausfiltere?

danke Z

Ares · #2 29.10.2004, 13:00:30

Mir fällt auf die schnelle nur eine Lösung ein.
Leg dir eine neue Tabelle an mit den Felder die du brauchst.

Dann machst du folgendes:

INSERT INTO table_new (field1,field2...) SELECT DISTINCT field_a,... FROM table_old;

Ein SELECT DISTINCT liefert nur die einträge, die eindeutig sind, das heißt wenn 100 mal "hallo" vorkommt listet er das nur einmal auf.

Bedenke aber das beim Select keine ID mit selectieren kannst, da du dann immer unterschiedliche zeilen hast.

Beispiel:
1,"hallo"
2,"hallo"

wird nicht zusammengefasst.

Du kannst ja erstmal einen SELECT DISTINCT auf deine Tabelle anwenden um zu schauen was rauskommt beim selektieren.

Eleganter ginge es mit subselect, aber mysql unterstützt sowas imho nicht.

MfG
Ares

diver-network · #3 29.10.2004, 13:05:21

Hi,

mal aus dem Kopf raus, sprich unbedingt mit Testdaten testen, bevor Du es produktiv anwendest:

mit:

Code:

SELECT t1.primary-key AS pk1
      ,t2.primary-key AS pk2
  FROM tabelle1 AS t1 INNER JOIN tabelle1 AS t2 ON t1.email = t2.email 
 WHERE t1.primary-key < t2.primary-key // WICHTIG, sonst Kreuzprodukt aus allen Inhalten und quasi Endlosschleife!

bekommst Du die ids der doppelten Einträge raus. Diese stehen in pk1, pk2 dient der stichpunktartigen manuellen Kontrolle der Einträge, kann aber auch weggelassen werden.
Die IDs liesst Du Dir am besten aus und machst anschliessend einen DELETE FROM tabelle1 WHERE primary-key IN (...).

WICHTIG: Die JOIN- Bedingung muss natürlich über alle Felder gehen, die identisch sein müssen, damit ein Eintrag als doppelt gilt! Ansonsten schmeisst Du Dir z.B. den Eintrag "meier, info@a.c" raus, obwohl unter der gleichen Email- Adresse noch der Eintrag "müller, info@a.c" steht!!

edit:
ACHTUNG: MySQL unterscheidet nicht (immer?) zwischen GROSS- und kleinschreibung. Sprich: "a" und "A" werden beim Vergleich mit "=" als identisch behandelt. Achtet hier unbedingt drauf!

HTH,

Andy

P.S.: Doppelte Einträge kannst Du natürlich auch mit UNION bekommen, geht aber nicht in allen Versionen von MySQL.
P.S.S.: Achte darauf, daß Du für obige Abfrage auf die JOIN- Felder einen Index setzt, wenn es sehr viele Datensätze zum kontrollieren gibt, sonst kann es dauern.

zorromaus · #4 02.11.2004, 09:23:37

danke schön das hat mir schon mal geholfen.

gruß Z

p.s. das mit den testdaten habe ich nätürlich gemacht. danke

:: Buchempfehlung ::

:: Anbieterverzeichnis ::

Globale Branchen

Informieren Sie sich über ausgewählte Unternehmen im Anbieterverzeichnis von SELFPHP

:: Newsletter ::

Abonnieren Sie hier den kostenlosen SELFPHP Newsletter!