Was sind einige der entscheidenden Faktoren, die bei der Auswahl eines Ähnlichkeitsindex berücksichtigt werden müssen? In welchen Fällen wird eine euklidische Entfernung gegenüber Pearson und umgekehrt bevorzugt?
Korrelation ist einheitenunabhängig; Wenn Sie eines der Objekte zehn Mal skalieren, erhalten Sie unterschiedliche euklidische Entfernungen und gleiche Korrelationsabstände. Daher sind Korrelationsmetriken hervorragend geeignet, wenn Sie die Entfernung zwischen Objekten messen möchten, die durch ihr Expressionsprofil definiert sind.
Oft wird die absolute oder quadrierte Korrelation als Entfernungsmetrik verwendet, weil wir mehr an der Stärke der Beziehung interessiert sind als an ihrem Vorzeichen.
Die Korrelation ist jedoch nur für hochdimensionale Daten geeignet; Es gibt kaum einen Punkt, um es für zwei- oder dreidimensionale Datenpunkte zu berechnen.
Beachten Sie auch, dass "Pearson distance" eine gewichtete Art der euklidischen Distanz ist und nicht die "Korrelationsdistanz", die den Pearson-Korrelationskoeffizienten verwendet.
Es kommt wirklich auf das Anwendungsszenario an, das Sie in der Hand haben. Ganz kurz, wenn Sie mit Daten arbeiten, bei denen die tatsächliche Differenz in Werten von Attributen wichtig ist, gehen Sie mit Euklidischer Abstand. Wenn Sie nach einer Ähnlichkeit von Trends oder Formen suchen, dann gehen Sie mit der Korrelation. Beachten Sie auch, dass die euklidische Distanz sich ähnlich wie der Pearson-Korrelationskoeffizient verhält, wenn Sie in jedem Objekt eine Z-Score-Normalisierung durchführen. Pearson ist gegenüber linearen Transformationen der Daten nicht empfindlich. Es gibt andere Arten von Korrelationskoeffizienten, die nur die Ränge der Werte berücksichtigen und sowohl für lineare als auch für nichtlineare Transformationen unempfindlich sind. Beachten Sie, dass die übliche Verwendung der Korrelation als Unähnlichkeit 1 - Korrelation ist, die nicht alle Regeln für eine metrische Distanz berücksichtigt.
Es gibt einige Studien, in denen Näherungsmaßnahme für eine bestimmte Anwendung ausgewählt wird, zum Beispiel:
Pablo A. Jaskowiak, Ricardo J. G. Campello, Ivan G. Costa Filho, "Näherungsmaßnahmen für Clustering Gene Expression Microarray Daten: Eine Validierung Methodik und eine vergleichende Analyse," IEEE / ACM-Transaktionen auf Computer-Biologie und Bioinformatik, vol. 99, nein. PrePrints, p. 1,, 2013Tags und Links machine-learning statistics artificial-intelligence nlp