Apache Spark: Pyspark-Absturz für große Datenmengen

9

Ich bin neu bei Spark. und ich habe eine Eingabedatei mit Trainingsdaten 4000x1800. Wenn ich versuche, diese Daten (geschriebenes Python) zu trainieren, bekomme folgenden Fehler:

  1. 14/11/15 22:39:13 Fehler PythonRDD: Python-Worker unerwartet beendet (abgestürzt) java.net.SocketException: Verbindung von Peer zurückgesetzt: Socket-Schreibfehler

  2. org.apache.spark.SparkException: Job aufgrund eines Stage-Fehlers abgebrochen: Task 0 in Stufe 0.0 ist 1 Mal fehlgeschlagen, letzter Fehler: Task 0.0 in Stufe 0.0 verloren (TID 0, lokal host): java.net.SocketException: Verbindung wurde von Peer zurückgesetzt: socket write error

Arbeiten mit Funken 1.1.0. Jeder Vorschlag wird eine große Hilfe sein.

Code:

%Vor%

Ich erhalte den folgenden Fehler:

%Vor%

Grüße, Mrutyunjay

    
Mrutyunjay 16.11.2014, 06:40
quelle

4 Antworten

2

Mrutynjay,

Obwohl ich keine definitive Antwort habe. Das Problem sieht aus wie etwas, das mit der Erinnerung zusammenhängt. Ich habe auch das gleiche Problem beim Versuch, eine Datei von 5 MB zu lesen. Ich habe einen Teil der Datei gelöscht und auf weniger als 1 MB reduziert und der Code funktioniert.

Ich habe auch hier auf der folgenden Seite etwas zum selben Thema gefunden.

Ссылка

    
Arvind 22.06.2015 18:17
quelle
1

Ich habe den gleichen Fehler, dann bekam ich eine relatierte Antwort von pyspark Prozess große Datasets Probleme

Die Lösung ist ein paar Code hinzufügen python / pyspark / worker.py

Fügen Sie die folgenden zwei Zeilen am Ende der in der Hauptfunktion definierten Prozessfunktion hinzu

%Vor%

so sieht die Prozessfunktion jetzt so aus (zumindest in Funke 1.5.2):

%Vor%

und das funktioniert für mich.

    
Luna_one 23.05.2016 08:30
quelle
0
  1. Eine Möglichkeit ist, dass es eine Ausnahme in parsePoint , wrap gibt der Code in einem try except Block und drucken Sie die Ausnahme.
  2. Überprüfen Sie Ihren --driver-memory -Parameter, machen Sie ihn größer.
softwarevamp 18.12.2016 09:34
quelle
0

Ich hatte ein ähnliches Problem, ich habe versucht, etwas wie:

numPartitions = eine Nummer zum Beispiel 10 oder 100 data = sc.textFile ("meineDatei.txt", numPartitions)

Inspiriert von: Wie gleichmäßig im Spark verteilt? oder hier: Ссылка

    
Rafael Valero 23.04.2017 19:10
quelle

Tags und Links