apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
4
Antworten

Spark-Streaming benutzerdefinierte Metriken

Ich arbeite an einem Spark-Streaming-Programm, das einen Kafka-Stream abruft, sehr grundlegende Transformation im Stream durchführt und dann die Daten in einen DB (Voltdb, wenn es relevant ist) einfügt. Ich versuche die Rate zu messen, mit der i...
29.09.2015, 12:17
5
Antworten

Apache-Spark: Was ist map (_._ 2) Kurzschrift für?

Ich habe den Quellcode eines Projekts gelesen, gefunden: %Vor% inputMBR ist ein Tupel. Die Definition der Funktion map lautet: %Vor% es scheint, dass map(_._2) die Abkürzung für map(x => (x._2)) ist. Jeder kann mir R...
25.03.2015, 02:28
3
Antworten

Einfügen von Spark DataType aus Zeichenfolgenliteralen

Ich versuche eine Scala-Funktion zu schreiben, die zu Spark DataTypes basierend auf einer bereitgestellten Eingabezeichenfolge: %Vor% Mein Ziel ist es, eine große Teilmenge, wenn nicht alle, der verfügbaren DataTypes zu unterstützen. Al...
29.09.2016, 18:36
1
Antwort

Zugriff auf Array-Spalte in Spark

Ein Spark DataFrame enthält eine Spalte vom Typ Array [Double]. Es wird eine ClassCastException-Ausnahme ausgelöst, wenn ich versuche, es in einer map () -Funktion zurück zu bekommen. Der folgende scala-Code erzeugt eine Ausnahme. %Vor% Die...
28.10.2015, 12:20
4
Antworten

Wie speichert man einen Datenrahmen als komprimierte (gezippte) CSV?

Ich benutze Spark 1.6.0 und Scala. Ich möchte einen Datenrahmen als komprimiertes CSV-Format speichern. Hier ist, was ich bisher habe (angenommen, ich habe bereits df und sc als SparkContext ): %Vor% Die Ausgabe ist nicht in g...
20.10.2016, 20:32
6
Antworten

Wie werden Klammern um Datensätze entfernt, wenn saveAsTextFile auf RDD [(String, Int)]?

Ich verwende saveAsTextFile(path) , um später die Ausgabe als Textdatei zu speichern, um das Ergebnis in die DB zu importieren. Die Ausgabe sieht ungefähr so ​​aus: %Vor% Wie entfernen Sie die Klammern?     
29.04.2015, 13:32
1
Antwort

Schreiben in HBase über Spark: Task nicht serialisierbar

Ich versuche, einige einfache Daten in HBase (0.96.0-hadoop2) mit Spark 1.0 zu schreiben, aber ich bekomme immer Serialisierungsprobleme. Hier ist der relevante Code: %Vor% Das Ausführen des Codes führt zu: %Vor% Das Ersetzen der foreach...
11.08.2014, 19:21
2
Antworten

SBT kann Kafka-Encoder / Decoder-Klassen nicht importieren

Projekteinrichtung: 1 Produzent - serialisiert Objekte & amp; sendet Bytes an Kafka 1 Spark Consumer - sollte DefaultDecoder in kafka.serializer verwenden Paket, um Bytes zu verbrauchen Problem: SBT importiert korrekte Bibliothe...
04.04.2016, 08:22
4
Antworten

So erstellen Sie SparkSession aus dem vorhandenen SparkContext

Ich habe eine Spark-Anwendung, die die neue API von Spark 2.0 mit SparkSession verwendet. Ich baue diese Anwendung auf der anderen Anwendung, die SparkContext verwendet. Ich möchte SparkContext an meine Anwendung weitergeben und SparkS...
21.03.2017, 18:20
2
Antworten

SparkSQL und explodieren auf Datenrahmen in Java

Gibt es einen einfachen Weg, wie explode für eine Array-Spalte in SparkSQL DataFrame verwendet? Es ist relativ einfach in Scala, aber diese Funktion scheint in Java nicht verfügbar zu sein (wie in javadoc erwähnt). Eine Option ist die V...
06.08.2015, 15:03