apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
2
Antworten

Anzahl Aufgaben reduzieren Spark

Welche Formel verwendet Spark, um die Anzahl reduzierter Aufgaben zu berechnen? Ich führe ein paar Spark-SQL-Abfragen aus und die Anzahl der Reduzierungsaufgaben ist immer 200. Die Anzahl der Map-Aufgaben für diese Abfragen ist 154. Ich bin a...
23.10.2015, 08:12
2
Antworten

Spark verliert println () auf stdout

Ich habe den folgenden Code: %Vor% Dann ist der blueCount nicht Null, aber ich habe keinen println () Ausgang! Fehle ich hier etwas? Danke!     
20.10.2015, 00:14
3
Antworten

JSON mit Apache Spark lesen - 'corrupt_record'

Ich habe eine json -Datei, nodes , die so aussieht: %Vor% Ich kann diesen Datensatz mit Python lesen und bearbeiten. Ich versuche diese Datei in scala durch die spark-shell zu lesen. Von diesem Tutorial kann ich es sehen k...
11.08.2016, 11:25
1
Antwort

PySpark-Datenformat konvertiert ungewöhnliches Zeichenfolgenformat in Timestamp

Ich benutze PySpark über Spark 1.5.0. Ich habe ein ungewöhnliches String-Format in Zeilen einer Spalte für Datetime-Werte. Es sieht so aus: %Vor% Gibt es eine Möglichkeit, dieses unorthodoxe yyyy_mm_dd hh_mm_dd -Format in einen Timestamp...
22.08.2016, 20:47
3
Antworten

So erstellen Sie SparkSession mit Hive-Unterstützung (schlägt fehl mit "Hive-Klassen werden nicht gefunden")?

Ich erhalte diesen Fehler, wenn ich versuche, diesen Code auszuführen. %Vor% Ausgabe:    Ausnahme im Thread "main" java.lang.IllegalArgumentException: Kann SparkSession mit Hive-Unterstützung nicht instanziieren, weil Hive-Klassen nicht g...
12.09.2016, 06:31
2
Antworten

Eine RDD in einen csv schreiben

Ich habe eine RDD der Form %Vor% Ich möchte dies in eine CSV-Datei schreiben. Bitte schlage mir vor, wie das gemacht werden kann. Wenn Sie myrdd.saveAsTextFile on ausführen, wird die Ausgabe wie folgt angezeigt: %Vor%     
03.02.2015, 08:59
3
Antworten

Einfügen von Analytic-Daten von Spark nach Postgres

Ich habe eine Cassandra-Datenbank, von der ich die Daten mit SparkSQL über Apache Spark analysiert habe. Jetzt möchte ich diese analysierten Daten in PostgreSQL einfügen. Gibt es irgendwelche Möglichkeiten, dies direkt zu erreichen, abgesehen vo...
03.02.2015, 12:17
1
Antwort

Spark: Speichern von Dataframe partitioniert durch "virtuelle" Spalte

Ich benutze PySpark, um einen klassischen ETL-Job zu machen (Datensatz laden, verarbeiten, speichern) und möchte meinen Dataframe als Dateien / Verzeichnis speichern, das durch eine "virtuelle" Spalte partitioniert ist; Was ich mit "virtual" mei...
16.02.2016, 16:07
3
Antworten

Die Methode reduceByKey wird nicht in IntelliJ gefunden

Hier ist der Code, den ich für reduceByKey ausprobiere: %Vor% Gibt Compilerfehler: "Kann das Symbol reduceByKey nicht auflösen" Wenn ich den Mauszeiger über die Implementierung von reduceByKey halte, gibt es drei mögliche Implementierunge...
06.06.2014, 14:31
3
Antworten

So erstellen Sie eine Zeile aus einer Liste oder einem Array in Spark mit Scala

Ich versuche eine Zeile ( org.apache.spark.sql.catalyst.expressions.Row ) basierend auf der Benutzereingabe zu erstellen. Ich kann keine Zeile zufällig erstellen. Gibt es Funktionen zum Erstellen einer Zeile aus List oder Array ....
23.01.2015, 10:43