K-bedeutet: Anfangszentren sind nicht unterscheidbar

Question

K-bedeutet: Anfangszentren sind nicht unterscheidbar

8

Ich verwende das GA-Paket und mein Ziel ist es, die optimale Initiale zu finden Zentroid-Positionen für den K-Means-Clustering-Algorithmus. Meine Daten sind eine spärliche Matrix aus Wörtern im TF-IDF-Score und können hier hier heruntergeladen werden. Im Folgenden finden Sie einige Beispiele Stufen, die ich implementiert habe:

0. Bibliotheken und Dataset

%Vor%

1. Binärcodierung und Generierung der Anfangspopulation.

%Vor%

2. Fitness-Funktion Minimiert Davies-Bouldin (DB) Index. Wo ich DBI für jede aus initial_population generierte Lösung auswerte.

%Vor%

3. GA ausführen. Mit diesen Einstellungen.

%Vor%

4. Das Problem. Fehler in kmeans (corpus [-1], initial_centroid): Anfangszentren sind nicht verschieden '.

Ich habe ein ähnliches Problem hier gefunden, bei dem der Benutzer auch einen Parameter verwenden musste, um die Anzahl dynamisch zu übergeben zu verwendende Cluster. Es wurde gelöst, indem die Anzahl der Cluster hart codiert wurde. Für meinen Fall muss ich jedoch die Anzahl der Cluster dynamisch übergeben, da sie von einem zufällig generierten binären Vektor kommt, wobei diese 1's die anfänglichen Zentroide darstellen.

Überprüfung mit dem kmeans() Code , I bemerkte, dass der Fehler durch doppelte Zentren verursacht wurde:

%Vor%

Ich habe die Funktion kmeans mit trace bearbeitet, um die duplizierten Zentren auszudrucken. Die Ausgabe:

%Vor%

Das zeigt keine Duplizierung in der zufällig ausgewählten initial_centroids und ich habe keine Ahnung, warum dieser Fehler weiterhin auftritt. Gibt es noch etwas, das zu diesem Fehler führen würde?

P / S: Ich verstehe, dass einige vorschlagen, GA + K-Mittel ist keine gute Idee. Aber ich hoffe zu Ende, was ich angefangen habe. Es ist besser, dieses Problem als K-Means-Problem zu betrachten (zumindest beim Lösen des initial centers are not distinct -Fehlers).

optimization r sparse-matrix genetic-algorithm k-means

jacky_learns_to_code 15.02.2017, 13:35

quelle

2 Antworten

Tags und Links optimization r sparse-matrix genetic-algorithm k-means

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Wie viele ABA-Tag-Bits werden in sperrfreien Datenstrukturen benötigt?

score 4 · Answer 1

Genetische Algorithmen sind aufgrund der Art des Problems nicht gut geeignet, um k-Mittel zu optimieren - Initialisierungskeime interagieren zu sehr, ga ist nicht besser als eine Stichprobe aller möglichen Samen zu nehmen.

Mein Hauptanliegen ist also, hier keine genetischen Algorithmen zu verwenden!

Wenn Sie darauf bestehen, müssen Sie die schlechten Parameter erkennen und dann einfach eine schlechte Bewertung für eine schlechte Initialisierung zurückgeben, damit sie nicht "überleben".

score 2 · Answer 2

Um Ihre Frage zu beantworten, tun Sie einfach:

%Vor%

Ihre 520 und 564 Zeilen von corpus sind identisch, mit dem einzigen Unterschied in einem Attribut row.names , siehe:

%Vor%

Bezüglich der GA und k-Mittel, siehe z.B.:

Bashar Al-Shboul, Myaung Sung-Hyon, "Initialisieren von K-Means mit Hilfe von genetischen Algorithmen", World Academy of Science , Ingenieurwesen & amp; Technologie, Jun2009, Ausgabe 30, p. 114 , (besonders Abschnitt II B); oder
BAIN KHUSUL KHOTIMAH, FIRLI IRHAMNI UND TRI SUNDARWATI, "EIN GENETISCHER ALGORITHMUS FÜR OPTIMIERTE INITIALE ZENTREN K-BEDEUTET CLUSTERING IN KMU ", Zeitschrift für Theoretische und Angewandte Informationstechnologie, 2016, Vol. 90, Nr. 1