apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
2
Antworten

Spark 2.0 fehlende Funken impliziert

Unter Verwendung von Spark 2.0 sehe ich, dass es möglich ist, einen Datenrahmen von Zeilen in einen Datenrahmen von Fallklassen zu verwandeln. Als ich das versuchte, begrüßte ich eine Nachricht mit dem Hinweis, spark.implicits._ zu importiere...
11.10.2016, 00:27
2
Antworten

Übergeben einer Datenrahmenspalte und einer externen Liste an udf unter withColumn

Ich habe einen Spark-Datenrahmen mit folgender Struktur. Das bodyText_token hat die Tokens (verarbeitete Wörter). Und ich habe eine verschachtelte Liste von definierten Schlüsselwörtern %Vor% Ich musste überprüfen, wie viele Tokens unter die...
24.05.2016, 09:42
1
Antwort

Anpassen von SparkContext mithilfe von sparkConf.set (..) bei Verwendung von Spark-Shell

In Spark gibt es drei Möglichkeiten, um die Optionen für SparkConf anzugeben, die zum Erstellen von SparkContext verwendet wurden: Als Eigenschaften in der Datei conf / spark-defaults.conf z. B. die Zeile: spark.driver.memory 4g...
14.07.2015, 04:36
2
Antworten

Wie kann ich zusätzliche Parameter an UDFs in SparkSql übergeben?

Ich möchte die Datumsspalten in DataFrame analysieren, und für jede Datumsspalte kann sich die Auflösung für das Datum ändern (z. B. 2011/01/10 = & gt; 2011/01, wenn die Auflösung auf "Monat" eingestellt ist "). Ich habe den folgenden Code...
22.02.2016, 05:47
2
Antworten

wie json string in Dataframe auf Spark konvertieren

Ich möchte Stringvariable unten in Dataframe auf Spark konvertieren. %Vor% Ich weiß, wie man einen Datenrahmen aus der json-Datei erstellt. %Vor% aber ich weiß nicht, wie man ein Datenframe aus einer String-Variablen erzeugt. Wie kann...
08.07.2016, 16:35
2
Antworten

Verbinden von zwei Datenrahmen in Spark SQL und Auswählen von Spalten aus nur einer Datei

Ich habe zwei Datenrahmen in Spark SQL ( D1 und D2 ). Ich versuche, beide zu verbinden D1.join(D2, "some column") und erhalten Daten von nur D1, nicht den vollständigen Datensatz . Sowohl D1 als auch D2 haben die gleichen Spalten. K...
02.08.2016, 13:02
2
Antworten

Spark - scala: shuffle RDD / split RDD in zwei zufällige Teile nach dem Zufallsprinzip

Wie kann ich ein rdd Array von spark nehmen und es in zwei rdds aufteilen, so dass jede rdd einen Teil der Daten enthält (sagen wir 97% und 3%). Ich dachte, die Liste und dann shuffledList.take((0.97*rddList.count).toInt) zu mischen Abe...
21.07.2014, 12:13
3
Antworten

Spark + EMR verwendet die Amazon-Einstellung "maximizeResourceAllocation" nicht alle Cores / Vcores

Ich führe einen EMR-Cluster (Version emr-4.2.0) für Spark mit dem Amazon-spezifischen maximizeResourceAllocation -Flag wie dokumentiert hier . Diesen Dokumenten zufolge "berechnet diese Option die maximalen Rechen- und Speicherressourcen, die...
30.11.2015, 16:51
2
Antworten

Spark RDD zu DataFrame Python

Ich versuche, die Spark RDD in einen DataFrame zu konvertieren. Ich habe die Dokumentation und das Beispiel gesehen, wo das Schema übergeben wurde sqlContext.CreateDataFrame(rdd,schema) -Funktion. Aber ich habe 38 Spalten oder Felder und...
26.09.2016, 09:24
3
Antworten

Wie kann man eine Struktur in einem Spark-Dataframe glätten?

Ich habe einen Datenrahmen mit folgender Struktur: %Vor% Wie es möglich ist, die Struktur zu glätten und einen neuen Datenrahmen zu erstellen: %Vor% Gibt es etwas wie explodieren, aber für Strukturen?     
03.08.2016, 21:24