Ich bin neu bei Spark. und ich habe eine Eingabedatei mit Trainingsdaten 4000x1800. Wenn ich versuche, diese Daten (geschriebenes Python) zu trainieren, bekomme folgenden Fehler:
14/11/15 22:39:13 Fehler PythonRDD: Python-Worker unerwartet beendet (abgestürzt) java.net.SocketException: Verbindung von Peer zurückgesetzt: Socket-Schreibfehler
org.apache.spark.SparkException: Job aufgrund eines Stage-Fehlers abgebrochen: Task 0 in Stufe 0.0 ist 1 Mal fehlgeschlagen, letzter Fehler: Task 0.0 in Stufe 0.0 verloren (TID 0, lokal host): java.net.SocketException: Verbindung wurde von Peer zurückgesetzt: socket write error
Arbeiten mit Funken 1.1.0. Jeder Vorschlag wird eine große Hilfe sein.
Code:
%Vor%Ich erhalte den folgenden Fehler:
%Vor%Grüße, Mrutyunjay
Mrutynjay,
Obwohl ich keine definitive Antwort habe. Das Problem sieht aus wie etwas, das mit der Erinnerung zusammenhängt. Ich habe auch das gleiche Problem beim Versuch, eine Datei von 5 MB zu lesen. Ich habe einen Teil der Datei gelöscht und auf weniger als 1 MB reduziert und der Code funktioniert.
Ich habe auch hier auf der folgenden Seite etwas zum selben Thema gefunden.
Ich habe den gleichen Fehler, dann bekam ich eine relatierte Antwort von pyspark Prozess große Datasets Probleme
Die Lösung ist ein paar Code hinzufügen python / pyspark / worker.py
Fügen Sie die folgenden zwei Zeilen am Ende der in der Hauptfunktion definierten Prozessfunktion hinzu
%Vor%so sieht die Prozessfunktion jetzt so aus (zumindest in Funke 1.5.2):
%Vor%und das funktioniert für mich.
parsePoint
, wrap gibt
der Code in einem try except
Block und drucken Sie die Ausnahme. --driver-memory
-Parameter, machen Sie ihn größer. Ich hatte ein ähnliches Problem, ich habe versucht, etwas wie:
numPartitions = eine Nummer zum Beispiel 10 oder 100 data = sc.textFile ("meineDatei.txt", numPartitions)
Inspiriert von: Wie gleichmäßig im Spark verteilt? oder hier: Ссылка
Tags und Links apache-spark