rdd

Resilient Distributed Datasets (RDDs) sind eine verteilte Speicherabstraktion, die es Programmierern ermöglicht, In-Memory-Berechnungen in großen Clustern durchzuführen, während die Fehlertoleranz von Datenflussmodellen wie MapReduce beibehalten wird.
2
Antworten

Spark - scala: shuffle RDD / split RDD in zwei zufällige Teile nach dem Zufallsprinzip

Wie kann ich ein rdd Array von spark nehmen und es in zwei rdds aufteilen, so dass jede rdd einen Teil der Daten enthält (sagen wir 97% und 3%). Ich dachte, die Liste und dann shuffledList.take((0.97*rddList.count).toInt) zu mischen Abe...
21.07.2014, 12:13
1
Antwort

Wie kann ich eine große rdd mit einer sehr großen rdd in spark verbinden?

Ich habe zwei RDDs. Ein RDD ist zwischen 5-10 Millionen Einträge und der andere RDD ist zwischen 500 Millionen - 750 Millionen Einträge. Irgendwann muss ich diese beiden rdds mit einem gemeinsamen Schlüssel verbinden. %Vor% Wenn Spark entsch...
13.07.2015, 19:55
1
Antwort

Was ist der Unterschied zwischen Spark DataSet und RDD?

Ich habe immer noch Schwierigkeiten, die volle Leistungsfähigkeit der kürzlich eingeführten Spark Datasets zu verstehen. Gibt es Best Practices für die Verwendung von RDDs und die Verwendung von Datasets? Databricks erklärt in ihrer Ankün...
16.02.2016, 05:57
1
Antwort

Wie sortiere ich eine RDD und limit in Spark?

Ich habe RDD der Foo-Klasse: class Foo( name : String, createDate : Date ) . Ich möchte eine andere RDD mit 10 Prozent älterem Foo . Meine erste Idee war, nach createDate zu sortieren und um 0,1 * zu zählen, aber es gibt keine Limit-Funkt...
05.10.2015, 11:52
1
Antwort

Das Ausführen der RDD ist fehlgeschlagen, während Spark record delimiter mit org.apache.hadoop.conf.Configuration festgelegt wurde

Ich möchte eine große Textdatei "mydata.txt" (die Größe der tatsächlichen Datei beträgt etwa 30 GB) mit Spark bearbeiten. Es ist Datensatzbegrenzer ist "\ |" gefolgt von "\ n". Da das Standard-Record-Trennzeichen der Ladedatei (von "sc.textFile"...
28.11.2014, 03:26
7
Antworten

Erstellen eines Datenrahmens aus einer Textdatei in Spark

Ich habe eine Textdatei auf HDFS und möchte sie in Spark in einen Datenrahmen konvertieren. Ich verwende den Spark-Kontext, um die Datei zu laden und dann zu versuchen, einzelne Spalten aus dieser Datei zu erzeugen. %Vor% Nachdem ich dies...
21.04.2016, 10:06
1
Antwort

RDD in iterable konvertieren: PySpark?

Ich habe eine RDD, die ich erstelle, indem ich eine Textdatei lade und vorbearbeite. Ich möchte es nicht sammeln und auf der Festplatte oder dem Speicher (ganze Daten) speichern, sondern es lieber an eine andere Funktion in Python weitergeben, d...
24.09.2015, 22:07
1
Antwort

Standardpartitionierungsschema in Spark

Wenn ich den folgenden Befehl ausführe:  %Vor% Es heißt, dass es 10 Partitionen gibt und die Partitionierung mit HashPartitioner erfolgt. Aber wenn ich unter Befehl ausführen:  %Vor% Es besagt, dass es vier Partitionen gibt und der Pa...
28.12.2015, 09:53
5
Antworten

DataFrame-Gleichheit in Apache Spark

Angenommen df1 und df2 sind zwei DataFrame s in Apache Spark, die mit zwei verschiedenen Mechanismen berechnet wurden, z. B. Spark SQL im Vergleich zur Scala / Java / Python-API. Gibt es einen idiomatischen Weg, um zu bestimmen, ob d...
03.07.2015, 02:00
2
Antworten

Mehrere Zeilen in einem Spark-Dataframe zu einer einzelnen Zeile zusammenführen

Ich habe einen Datenrahmen mit 2 Spalten: Zeitstempel, Wert Zeitstempel ist eine Zeit seit der Epoche und Wert ist ein Gleitkommawert. Ich möchte Zeilen auf Durchschnittswerte von min zusammenführen. Das bedeutet, dass ich alle Zeilen nehmen möc...
07.09.2015, 14:57