apache-spark-ml

___ qstnhdr ___ Wie erhalten Sie Wahrscheinlichkeiten, die der Klasse von Spark ML random forest entsprechen ___ tag123scala ___ Scala ist eine universelle Programmiersprache, die hauptsächlich auf die Java Virtual Machine abzielt. Entwickelt, um gängige Programmiermuster in einer prägnanten, eleganten und typensicheren Weise auszudrücken, vereint es sowohl imperative als auch funktionale Programmierstile. Seine Hauptmerkmale sind: fortgeschrittenes statisches System mit Typinferenz; Funktionstypen; Muster-Matching; implizite Parameter und Konvertierungen; Überlastung des Bedieners; volle Interoperabilität mit Java; Nebenläufigkeit ___ qstntxt ___

Ich habe org.apache.spark.ml.Pipeline für maschinelle Lernaufgaben verwendet. Es ist besonders wichtig, die tatsächlichen Wahrscheinlichkeiten zu kennen und nicht nur ein vorhergesagtes Etikett, und ich habe Schwierigkeiten, es zu bekommen. Hier mache ich eine binäre Klassifizierungsaufgabe mit zufälliger Gesamtstruktur. Die Klassenbezeichnungen sind "Ja" und "Nein". Ich möchte die Wahrscheinlichkeit für das Label "Ja" ausgeben. Die Wahrscheinlichkeiten werden in einem DenseVector als Pipeline-Ausgabe gespeichert, wie [0.69, 0.31], aber ich weiß nicht, welcher entspricht "Ja" (0.69 oder 0.31?). Ich denke, es sollte eine Möglichkeit geben, es von labelIndexer abzurufen?

Hier ist mein Aufgabencode zum Trainieren des Modells

%Vor%

Dann werde ich die Pipeline laden und Vorhersagen über neue Daten treffen, und hier ist der Codestück

%Vor%

Hinweise zu den Wahrscheinlichkeiten und Labels für RF: Ссылка

    
___ answer46167397 ___

meinst du, dass du die Wahrscheinlichkeit der positiven Markierung im DenseVector extrahieren willst? Wenn ja, können Sie eine udf-Funktion erstellen, um die Wahrscheinlichkeit zu lösen. Im DenseVector der binären Klassifikation gibt das erste Col die Wahrscheinlichkeit von "0" und das zweite Col von "1" an.

%Vor%     
___ tag123apachessparkml ___ Spark ML ist eine High-Level-API zum Erstellen von Lernstrecken für maschinelles Lernen in Apache Spark. ___ tag123apachespark ___ Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing. ___
5
Antworten

Spark, ML, StringIndexer: Behandlung von unsichtbaren Labels

Mein Ziel ist es, einen multicals-Klassifikator zu erstellen. Ich habe eine Pipeline für die Merkmalsextraktion erstellt und enthält als ersten Schritt einen StringIndexer-Transformer, um jeden Klassennamen einem Label zuzuordnen. Dieses Labe...
08.01.2016, 16:20
1
Antwort

Zugriffselement eines Vektors in einem Spark DataFrame (logistischer Regressionswahrscheinlichkeitsvektor) [duplizieren]

Ich habe ein LogisticRegression-Modell in PySpark trainiert (ML-Paket) und das Ergebnis der Vorhersage ist ein PySpark DataFrame ( cv_predictions ) (siehe [1]). Die probability -Spalte (siehe [2]) ist ein vector -Typ (siehe [3]). %Vo...
08.06.2017, 01:17
1
Antwort

Hängen Sie Metadaten an die Vektorspalte in Spark an

Kontext: Ich habe einen Datenrahmen mit zwei Spalten: Label und Features. %Vor% Where features ist eine mllib.linalg.VectorUDT vom numerischen Typ, die mit VectorAssembler erstellt wurde. Frage: Gibt es eine Möglichkeit, dem Feature...
10.02.2016, 01:07
1
Antwort

Was ist der Unterschied zwischen Spark ML- und MLLIB-Paketen?

Ich habe bemerkt, dass es in SparkML zwei LinearRegressionModel -Klassen gibt, eine in ML und eine weitere in MLLib -Paket. Diese zwei sind ziemlich unterschiedlich implementiert - z.B. Der eine von MLLib implementiert Serializable...
08.08.2016, 18:10
2
Antworten

SPARK, ML, Optimierung, CrossValidator: Zugriff auf die Metriken

Um einen NaiveBayes-Klassenklassifikator zu erstellen, verwende ich einen CrossValidator, um die besten Parameter in meiner Pipeline auszuwählen: %Vor% Die Pipeline enthält übliche Transformatoren und Schätzfunktionen in der folgenden Reihen...
08.01.2016, 13:59
2
Antworten

Apache Spark löst NullPointerException aus, wenn ein fehlendes Feature gefunden wird

Ich habe ein bizarres Problem mit PySpark beim Indexieren der Spalte von Strings in Features. Hier ist meine tmp.csv-Datei: %Vor% wo ich einen fehlenden Wert für 'x0' habe. Zuerst lese ich Funktionen aus der CSV-Datei mit Hilfe von pyspark_c...
06.11.2015, 20:02
1
Antwort

Wie erhalten Sie Wahrscheinlichkeiten, die der Klasse von Spark ML random forest entsprechen

Ich habe org.apache.spark.ml.Pipeline für maschinelle Lernaufgaben verwendet. Es ist besonders wichtig, die tatsächlichen Wahrscheinlichkeiten zu kennen und nicht nur ein vorhergesagtes Etikett, und ich habe Schwierigkeiten, es zu bekommen. Hier...
26.02.2016, 00:03