apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
1
Antwort

Unterschied beim Serialisieren eines Lazy Val mit oder ohne @Transient

Wenn ich an Spark arbeite, muss ich manchmal bei jeder Aufgabe ein nicht serialisierbares Objekt senden. Ein allgemeines Muster ist @transient lazy val , z. B. %Vor% Ich habe festgestellt, dass @transient hier nicht notwendig ist....
13.01.2016, 14:27
1
Antwort

Ist in spark join die Tabellenreihenfolge wie beim Schwein?

Bezieht sich auf Spark - Verbinden von 2 PairRDD-Elementen Wenn Sie einen regulären Join in einem Schwein ausführen, wird die letzte Tabelle im Join nicht in den Speicher geladen, sondern stattdessen durchgestreamt. Wenn A also eine kleine...
24.02.2015, 11:24
2
Antworten

Spark: PageRank Beispiel, wenn Iteration zu groß throws stackoverflowError

Ich teste das funke default PageRank-Beispiel und setze die Iteration auf 1024, dann stößt es stackoverflowerror. Ich habe auch dieses Problem in meinem anderen Programm getroffen. Wie kann ich es lösen. %Vor% Ich poste den Fehler hier. %V...
11.03.2014, 09:16
2
Antworten

Spark - Container läuft über die Grenzen des physischen Speichers hinaus

Ich habe einen Cluster aus zwei Arbeiterknoten. Worker_Node_1 - 64 GB RAM Worker_Node_2 - 32 GB RAM Background Summery: Ich versuche, funke-submit auf yarn-cluster auszuführen, um Pregel auf einem Graphen auszuführen, um die kürzesten Pfadd...
17.11.2015, 14:34
1
Antwort

BigQuery-Connector für Pyspark über das Hadoop-Eingabeformatbeispiel

Ich habe einen großen Datensatz in einer BigQuery-Tabelle gespeichert und möchte ihn in einen pypark-RDD für die ETL-Datenverarbeitung laden. Ich habe festgestellt, dass BigQuery das Hadoop-Eingabe / Ausgabe-Format unterstützt Ссылка...
14.07.2015, 08:11
1
Antwort

Warum Spark Executor SIGTERM empfängt?

Ich verwende Spark API (Spark Core API, nicht Stream, SQL etc.) Ich sehe oft diese Art von Fehler in Spark Dump Log: Spark-Umgebung: 1.3.1 Garn-Client %Vor% Wer löst SIGTERM aus? Garn, Spark oder ich? Wird dieses Signal den Spark Executor...
15.10.2015, 06:13
2
Antworten

Kein Speicher mehr

Ich habe einen Ordner mit 150 G txt-Dateien (ca. 700 Dateien, im Durchschnitt je 200 MB). Ich benutze scala, um die Dateien zu verarbeiten und am Ende einige zusammengefasste Statistiken zu berechnen. Ich sehe zwei mögliche Ansätze dafür:...
04.07.2014, 09:04
1
Antwort

Ist es möglich, einen zuverlässigen Empfänger zu implementieren, der ein nicht graziöses Herunterfahren unterstützt?

Ich bin neugierig, ob es absolut notwendig ist, dass eine Spark-Streaming-Anwendung ordnungsgemäß heruntergefahren wird oder dass das Risiko besteht, dass doppelte Daten über das Write-Ahead-Protokoll verursacht werden. Im folgenden Szenario ski...
29.07.2015, 18:47
2
Antworten

JSON im Spark-Streaming parsen

Ich bin ziemlich neu, um zu funken, und ich versuche, einen DStream zu erhalten, der als ein json von einem kafka Thema strukturiert wird, und ich will den Inhalt jedes json analysieren. Das JSON, das ich erhalte, ist ungefähr so: %Vor% Ich...
03.09.2014, 12:06
1
Antwort

NullPointerException nach dem Extrahieren einer Teradata-Tabelle mit Scala / Spark

Ich muss eine Tabelle von Teradata (nur Lesezugriff) auf Parkett mit Scala (2.11) / Spark (2.1.0) extrahieren. Ich baue einen Datenrahmen, den ich erfolgreich laden kann %Vor% Aber df.show gibt mir eine NullPointerException: %Vor% Ich...
29.08.2017, 08:07