Ich versuche, für jeden meiner Benutzer einen Vektor zu erstellen, der die durchschnittliche Anzahl der Datensätze pro Stunde des Tages enthält. Daher muss der Vektor 24 Dimensionen haben.
Mein ursprünglicher Datenrahmen hat userID und ho...
Ich versuche MaxMinds GeoIP in einer Spark-Task auszuführen, aber ich bekomme eine NoSuchMethodException von einem Maxmind-Aufruf an eine Jackson-Databind-Bibliothek. Ich habe alle anderen Versionen von Jackson-Databind mit MVN Ausschlüsse entfe...
Ich muss Spark Apps / Jobs auf einen Remote-Funke-Cluster einreichen. Ich habe momentan auf meinem Rechner und der IP-Adresse des Master-Knotens als Garn-Client gezündet. Übrigens ist meine Maschine nicht im Cluster.
Ich reiche meinen Job mit di...
Ich weiß, dass ich SparkConf.set('spark.app.name',...) um appName vor zu setzen, um SparkContext zu erstellen.
Ich möchte jedoch den Namen der Anwendung ändern, wenn sie fortschreitet, d. h. nachdem SparkContext erstellt wurde...
Ich bin eine Funkenanwendung mit mehreren Punkten, wo ich gerne den aktuellen Zustand beibehalten möchte. Dies ist normalerweise nach einem großen Schritt oder Zwischenspeichern eines Zustands, den ich gerne mehrmals verwenden würde. Es scheint,...
Ich bin neu zu funken, und habe versucht, das Beispiel JavaSparkPi.java auszuführen, es läuft gut, aber weil ich das in einem anderen Java s verwenden muss, kopiere ich alle Dinge von der Hauptleitung zu einer Methode in der Klasse und versuche...
In meiner Anwendung muss ich eine Verbindung zur Datenbank herstellen, so dass ich die IP-Adresse und den Datenbanknamen übergeben muss, wenn die Anwendung gesendet wird.
Ich reiche den Antrag wie folgt ein:
%Vor%
Ich habe das folgende Datenfeld in Spark:
%Vor%
Was ich tun möchte, ist diesen Datenrahmen zu glätten, so dass prop_1 ... prop_n auf der obersten Ebene existiert. Ie.
%Vor%
Es gibt mehrere Lösungen für ähnliche Probleme. Das Beste, wa...
Lassen Sie config.json eine kleine json-Datei sein:
%Vor%
Ich habe einen einfachen Code geschrieben, der die JSON-Datei mit sc.textFile liest (weil die Datei S3, local oder HDFS sein kann, also ist textFile praktisch)
%Vor%
Die SBT...
Ich habe ein LogisticRegression-Modell in PySpark trainiert (ML-Paket) und das Ergebnis der Vorhersage ist ein PySpark DataFrame ( cv_predictions ) (siehe [1]). Die probability -Spalte (siehe [2]) ist ein vector -Typ (siehe [3]).
%Vo...