apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
1
Antwort

Apache Spark: Wie erstelle ich eine Matrix aus einem DataFrame?

Ich habe einen Datenrahmen in Apache Spark mit einem Array von ganzen Zahlen, die Quelle ist eine Reihe von Bildern. Ich möchte schließlich PCA machen, aber ich habe Probleme, nur eine Matrix aus meinen Arrays zu erstellen. Wie erstelle ich eine...
22.07.2015, 15:47
1
Antwort

Wie passen Dataframe-Spaltennamen zu Scala-Fallklassenattributen zusammen?

Die Spaltennamen in diesem Beispiel von spark-sql stammen von case class Person . %Vor% Ссылка In vielen Fällen können die Parameternamen jedoch geändert werden. Dies würde dazu führen, dass Spalten nicht gefunden werden, wenn die Dat...
12.09.2015, 04:50
1
Antwort

So finden Sie die Funkenmaster-URL auf Amazon EMR

Ich bin neu zu funken und versuchen, Funke auf Amazon-Cluster mit Version 1.3.1 zu installieren. wenn ich es tue %Vor% es funktioniert für mich, aber ich kam zu wissen, dass dies für Testzwecke ist, kann ich lokal [2] setzen Wenn ich vers...
10.06.2015, 15:28
1
Antwort

Übergeben Sie Array als UDF-Parameter in Spark SQL

Ich versuche, einen Datenrahmen über eine Funktion zu transformieren, die ein Array als Parameter verwendet. Mein Code sieht ungefähr so ​​aus: %Vor% Aber beleuchtet Arrays und diese Skriptfehler nicht. Ich habe versucht, eine neue teilweise...
24.06.2015, 20:38
2
Antworten

funken streaming fileStream

Ich programmiere mit Spark-Streaming, habe aber Probleme mit scala. Ich versuche, die Funktion StreamingContext.fileStream zu verwenden Die Definition dieser Funktion ist wie folgt: %Vor% Erstellen Sie einen Eingabestream, der ein Hadoop-...
15.05.2013, 09:00
1
Antwort

pyspark Verteilen Python-Prozesse auf einem Executor-Knoten Broadcast-Variablen in ram?

Ich habe einen Knoten mit 24 Kernen und 124 Gb RAM in meinem Funkencluster. Wenn ich das Feld spark.executor.memory auf 4g setze und dann eine Variable ausstrahle, die 3,5 GB zur Speicherung im RAM benötigt, werden die Kerne insgesamt 24 Kopien...
17.10.2016, 09:18
1
Antwort

snakeyaml und funken führt dazu, dass Objekte nicht konstruiert werden können

Der folgende Code wird in einer scala-Shell in der snakeyaml-Version 1.17 korrekt ausgeführt %Vor% Wenn jedoch in Spark (in diesem Fall 2.0.0) ausgeführt wird, lautet der resultierende Fehler: %Vor% Ich habe die Scala-Shell mit gestarte...
23.06.2016, 22:25
2
Antworten

Der Spark Worker-Knoten wird automatisch gestoppt

Ich führe den Spark Standalone-Cluster aus und beim Übermitteln der Anwendung stoppt der Funketreiber mit dem folgenden Fehler. %Vor% Ich bin ein Neuling für Spark und seine Verarbeitung. Bitte helfen Sie mir dabei.     
13.01.2016, 08:03
2
Antworten

SPARK, ML, Optimierung, CrossValidator: Zugriff auf die Metriken

Um einen NaiveBayes-Klassenklassifikator zu erstellen, verwende ich einen CrossValidator, um die besten Parameter in meiner Pipeline auszuwählen: %Vor% Die Pipeline enthält übliche Transformatoren und Schätzfunktionen in der folgenden Reihen...
08.01.2016, 13:59
2
Antworten

Warum gibt der Mongo Spark-Connector für eine Abfrage unterschiedliche und falsche Zahlen zurück?

Ich bewerte Mongo Spark connector für ein Projekt und bekomme die inkonsistenten Ergebnisse. Ich benutze MongoDB Server Version 3.4.5, Spark (über PySpark) Version 2.2.0, Mongo Spark Connector Version 2.11, 2.2.0 lokal auf meinem Laptop. Für mei...
09.10.2017, 17:35