Ich habe kürzlich die "topologische Datenanalyse" (TDA) als eine einzigartige Methode zur Visualisierung großer Datensätze kennengelernt. Hier ist ein Stanford-Papier mit Beispielausgabe gegen Ende Ссылка .
Ich möchte ähnliche Ergebnisse erzielen, habe aber Schwierigkeiten, im Internet runnable Code zu finden, wo Sie ein Paket installieren, Beispieldaten laden und dann ein paar Zeilen ausführen (wie Ссылка Beispiele). Meine bevorzugte Sprache ist Python, könnte aber auch R verwenden.
Hat irgendjemand in der Lage gewesen, sich mit TDA vertraut zu machen, und wenn ja, irgendwelche Ratschläge, wie man Code zum Laufen bringt?
Es gibt ein neues Paket r:
TDA: Statistische Werkzeuge für die topologische Datenanalyse
Dieses Paket bietet Werkzeuge für die statistische Analyse von persistenter Homologie und für Dichtecluster.
Die sehr gut geschriebene Vignette finden Sie hier: Einführung in das R-Paket TDA
Zusammenfassung
Wir präsentieren ein kurzes Tutorial und eine Einführung in die Verwendung des R-Pakets TDA, die einige Tools für die topologische Datenanalyse bietet. Im Insbesondere enthält es Implementierungen von Funktionen, die einige gegeben sind Daten liefern topologische Informationen über den zugrunde liegenden Speicherplatz, z als Abstandsfunktion die Entfernung zu einem Maß, die kNN-Dichte Schätzer, der Kernel-Dichte-Schätzer und der Kernel-Abstand. Das herausragende topologische Merkmale der Sublevel-Sets (oder Superlevel-Sets) dieser Funktionen können mit persistenter Homologie quantifiziert werden. Wir Bereitstellen einer R-Schnittstelle für die effizienten Algorithmen von C ++ Bibliotheken GUDHI, Dionysus und PHAT, einschließlich einer Funktion für die persistente Homologie der Rips-Filtration und eine für die Persistenz Homologie von Sublevel-Mengen (oder Superlevel-Mengen) von beliebigen Funktionen bewertet über ein Raster von Punkten. Die Bedeutung der Merkmale in Die resultierenden Persistenzdiagramme können mit Funktionen analysiert werden, die implementieren Sie die in Fasy, Lecci, Rinaldo, Wasserman besprochenen Methoden, Balakrishnan und Singh (2014), Chazal, Fasy, Lecci, Rinaldo und Wasserman (2014c) und Chazal, Fasy, Lecci, Michel, Rinaldo und Wassermann (2014a). Das R-Paket TDA beinhaltet auch die Implementierung eines Algorithmus für Dichte-Clustering, der es uns ermöglicht, zu identifizieren die räumliche Organisation der Wahrscheinlichkeitsmasse in Verbindung mit a Dichtefunktion und visualisieren sie mittels eines Dendrogramms, dem Clusterbaum.
Tags und Links python r visualization topology