apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
1
Antwort

Spark: "Die Zeichenfolgendarstellung eines Plans wurde abgeschnitten, da sie zu groß war." Warnung bei Verwendung eines manuell erstellten Aggregationsausdrucks

Ich versuche, für jeden meiner Benutzer einen Vektor zu erstellen, der die durchschnittliche Anzahl der Datensätze pro Stunde des Tages enthält. Daher muss der Vektor 24 Dimensionen haben. Mein ursprünglicher Datenrahmen hat userID und ho...
03.05.2017, 12:21
3
Antworten

NoSuchMethodException in MaxMind GeoIp-Abhängigkeit jackson-databind mit mvn shade erstellt

Ich versuche MaxMinds GeoIP in einer Spark-Task auszuführen, aber ich bekomme eine NoSuchMethodException von einem Maxmind-Aufruf an eine Jackson-Databind-Bibliothek. Ich habe alle anderen Versionen von Jackson-Databind mit MVN Ausschlüsse entfe...
23.01.2016, 01:17
1
Antwort

Wie übermittele ich einen Spark-Job auf einem Remote-Master-Knoten im Garn-Client-Modus?

Ich muss Spark Apps / Jobs auf einen Remote-Funke-Cluster einreichen. Ich habe momentan auf meinem Rechner und der IP-Adresse des Master-Knotens als Garn-Client gezündet. Übrigens ist meine Maschine nicht im Cluster. Ich reiche meinen Job mit di...
06.06.2016, 01:25
1
Antwort

Kann ich SparkContext.appName im laufenden Betrieb ändern?

Ich weiß, dass ich SparkConf.set('spark.app.name',...) um appName vor zu setzen, um SparkContext zu erstellen. Ich möchte jedoch den Namen der Anwendung ändern, wenn sie fortschreitet, d. h. nachdem SparkContext erstellt wurde...
10.06.2015, 18:48
3
Antworten

Erlöschen aller Daten in (py) spark

Ich bin eine Funkenanwendung mit mehreren Punkten, wo ich gerne den aktuellen Zustand beibehalten möchte. Dies ist normalerweise nach einem großen Schritt oder Zwischenspeichern eines Zustands, den ich gerne mehrmals verwenden würde. Es scheint,...
28.04.2016, 05:08
2
Antworten

java + spark: org.apache.spark.SparkException: Job abgebrochen: Task nicht serialisierbar: java.io.NotSerializableException

Ich bin neu zu funken, und habe versucht, das Beispiel JavaSparkPi.java auszuführen, es läuft gut, aber weil ich das in einem anderen Java s verwenden muss, kopiere ich alle Dinge von der Hauptleitung zu einer Methode in der Klasse und versuche...
04.06.2014, 20:14
2
Antworten

So übergeben Sie externe Parameter über Spark submit

In meiner Anwendung muss ich eine Verbindung zur Datenbank herstellen, so dass ich die IP-Adresse und den Datenbanknamen übergeben muss, wenn die Anwendung gesendet wird. Ich reiche den Antrag wie folgt ein: %Vor%     
03.03.2016, 21:52
1
Antwort

Elegante Json glätten in Spark

Ich habe das folgende Datenfeld in Spark: %Vor% Was ich tun möchte, ist diesen Datenrahmen zu glätten, so dass prop_1 ... prop_n auf der obersten Ebene existiert. Ie. %Vor% Es gibt mehrere Lösungen für ähnliche Probleme. Das Beste, wa...
27.01.2016, 02:51
2
Antworten

Spark beim Lesen der JSON-Datei beim Verbinden mit aws-java-sdk

Lassen Sie config.json eine kleine json-Datei sein: %Vor% Ich habe einen einfachen Code geschrieben, der die JSON-Datei mit sc.textFile liest (weil die Datei S3, local oder HDFS sein kann, also ist textFile praktisch) %Vor% Die SBT...
01.11.2015, 18:32
1
Antwort

Zugriffselement eines Vektors in einem Spark DataFrame (logistischer Regressionswahrscheinlichkeitsvektor) [duplizieren]

Ich habe ein LogisticRegression-Modell in PySpark trainiert (ML-Paket) und das Ergebnis der Vorhersage ist ein PySpark DataFrame ( cv_predictions ) (siehe [1]). Die probability -Spalte (siehe [2]) ist ein vector -Typ (siehe [3]). %Vo...
08.06.2017, 01:17