Apache Spark: Pyspark-Absturz für große Datenmengen

Question

Apache Spark: Pyspark-Absturz für große Datenmengen

9

Ich bin neu bei Spark. und ich habe eine Eingabedatei mit Trainingsdaten 4000x1800. Wenn ich versuche, diese Daten (geschriebenes Python) zu trainieren, bekomme folgenden Fehler:

14/11/15 22:39:13 Fehler PythonRDD: Python-Worker unerwartet beendet (abgestürzt) java.net.SocketException: Verbindung von Peer zurückgesetzt: Socket-Schreibfehler
org.apache.spark.SparkException: Job aufgrund eines Stage-Fehlers abgebrochen: Task 0 in Stufe 0.0 ist 1 Mal fehlgeschlagen, letzter Fehler: Task 0.0 in Stufe 0.0 verloren (TID 0, lokal host): java.net.SocketException: Verbindung wurde von Peer zurückgesetzt: socket write error

Arbeiten mit Funken 1.1.0. Jeder Vorschlag wird eine große Hilfe sein.

Code:

%Vor%

Ich erhalte den folgenden Fehler:

%Vor%

Grüße, Mrutyunjay

apache-spark

Mrutyunjay 16.11.2014, 06:40

quelle

4 Antworten

Tags und Links apache-spark

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Verwendung des Positionsoperators $ von MongoDB in einer tief verschachtelten Dokumentabfrage

score 2 · Answer 1

Mrutynjay,

Obwohl ich keine definitive Antwort habe. Das Problem sieht aus wie etwas, das mit der Erinnerung zusammenhängt. Ich habe auch das gleiche Problem beim Versuch, eine Datei von 5 MB zu lesen. Ich habe einen Teil der Datei gelöscht und auf weniger als 1 MB reduziert und der Code funktioniert.

Ich habe auch hier auf der folgenden Seite etwas zum selben Thema gefunden.

Ссылка

score 1 · Answer 2

Ich habe den gleichen Fehler, dann bekam ich eine relatierte Antwort von pyspark Prozess große Datasets Probleme

Die Lösung ist ein paar Code hinzufügen python / pyspark / worker.py

Fügen Sie die folgenden zwei Zeilen am Ende der in der Hauptfunktion definierten Prozessfunktion hinzu

%Vor%

so sieht die Prozessfunktion jetzt so aus (zumindest in Funke 1.5.2):

%Vor%

und das funktioniert für mich.

score 0 · Answer 3

0

Eine Möglichkeit ist, dass es eine Ausnahme in parsePoint , wrap gibt der Code in einem try except Block und drucken Sie die Ausnahme.
Überprüfen Sie Ihren --driver-memory -Parameter, machen Sie ihn größer.

softwarevamp 18.12.2016 09:34

quelle

score 0 · Answer 4

0

Ich hatte ein ähnliches Problem, ich habe versucht, etwas wie:

numPartitions = eine Nummer zum Beispiel 10 oder 100 data = sc.textFile ("meineDatei.txt", numPartitions)

Inspiriert von: Wie gleichmäßig im Spark verteilt? oder hier: Ссылка

Rafael Valero 23.04.2017 19:10

quelle