apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
3
Antworten

Lesen von DataFrame aus der partitionierten Parkettdatei

So lesen Sie partitioniertes Parkett mit Zustand als Datenrahmen, das funktioniert gut, %Vor% Partition ist da für day=1 to day=30 ist es möglich etwas wie (day = 5 to 6) oder day=5,day=6 zu lesen, %Vor% Wenn ich * einstel...
11.11.2015, 12:19
3
Antworten

Wie wird eine programmgesteuerte Verbindung zu einem Hive-Metastore in SparkSQL hergestellt?

Ich benutze HiveContext mit SparkSQL und versuche, mich mit einem entfernten Hive-Metastor zu verbinden. Die einzige Möglichkeit, den Hive-Metastore zu setzen, besteht darin, die hive-site.xml in den Klassenpfad einzubinden (oder in / etc zu kop...
13.08.2015, 06:04
6
Antworten

Wie stichprobenweise aus einer Scala-Liste oder einem Array?

Ich möchte nach dem Zufallsprinzip aus einer Scala-Liste oder einem Array (keine RDD) abtasten, die Stichprobengröße kann viel länger sein als die Länge der Liste oder des Arrays, wie kann ich das effizient machen ? Weil die Stichprobengröße se...
04.10.2015, 09:59
2
Antworten

Filter Spark DataFrame, indem mit anderen Kriterien geprüft wird, ob der Wert in einer Liste enthalten ist

Als vereinfachtes Beispiel habe ich versucht, einen Spark DataFrame mit folgendem Code zu filtern: %Vor% Dann ist es falsch: %Vor% Was ist der richtige Weg? Es scheint mir, dass es nach name column aufhört zu lesen. Ist es ein Fehler...
29.11.2015, 09:55
2
Antworten

Wie werden Vorkommen jedes einzelnen Werts in einer Spalte gezählt?

edf.select("x").distinct.show() zeigt die verschiedenen Werte, die in der x -Spalte von edf DataFrame vorhanden sind. Gibt es eine effiziente Methode, um auch zu zeigen, wie oft diese unterschiedlichen Werte im Datenrahmen auftreten?...
21.06.2016, 16:10
4
Antworten

Entspricht der linken äußeren Verbindung in SPARK

Gibt es in SPARK SCALA eine linke äußere Verbindung? Ich verstehe, dass es eine Join-Operation gibt, die dem Datenbank-Inner-Join entspricht.     
21.04.2014, 08:21
1
Antwort

DataFrame / Dataset groupBy Verhalten / Optimierung

Angenommen, DataFrame df besteht aus den folgenden Spalten:    Name, Nachname, Größe, Breite, Länge, Wiegen Nun möchten wir ein paar Operationen ausführen, zum Beispiel wollen wir ein paar Datenrahmen erstellen, die Daten über Größe un...
02.10.2015, 08:08
1
Antwort

Filter Spark DataFrame basiert auf einem anderen Datenrahmen, der Kriterien für die Blacklist angibt

Ich habe eine largeDataFrame (mehrere Spalten und Milliarden von Zeilen) und eine smallDataFrame (einzelne Spalte und 10.000 Zeilen). Ich möchte alle Zeilen aus dem largeDataFrame filtern, wenn die Spalte some_identifier in large...
06.10.2016, 04:27
3
Antworten

spark.sql.crossJoin.enabled für Spark 2.x

Ich verwende die "Vorschau" Google DataProc Image 1.1 mit Spark 2.0.0. Um eine meiner Operationen abzuschließen, muss ich ein kartesisches Produkt vervollständigen. Seit der Version 2.0.0 wurde ein Spark-Konfigurationsparameter erstellt (spark.s...
17.08.2016, 14:13
1
Antwort

Pyspark auf Garn-Cluster-Modus

Gibt es eine Möglichkeit, pyspark-Skripte mit dem Garn-Cluster-Modus auszuführen, ohne das Spark-Submit-Skript zu verwenden? Ich brauche es auf diese Weise, weil ich diesen Code in eine Django Web App integrieren werde. Wenn ich versuche, irg...
09.07.2015, 20:11