Ich habe einen Cluster, der von zwei Slaves und einem Master erstellt und eingerichtet wurde, und ich übergebe dem Master (192.168.1.64) ein Jar (Scala):
%Vor%Nach einiger Zeit, wenn es gut läuft, stoppt es abrupt, wobei die letzten Zeilen auf dem Terminal
sind %Vor%und der Fehler im Hauptprotokoll ist der folgende:
%Vor%Beide Arbeiter haben in ihren Logs so etwas wie
%Vor%und
%Vor%jeweils. Die work / app-Dateien enthalten so etwas
%Vor%und
%Vor%jeweils. Es scheint keinen anderen Fehler in hdfs oder Sparks zu geben.
Ich vermute, dass der Fehler im Masterprotokoll liegt, der dritten Zeile ( 15/08/19 16:15:44 INFO master.Master: akka.tcp://[email protected]:46823 got disassociated, removing it.
), aber ich kann nicht herausfinden warum. Ich habe versucht, die spark.akka.heartbeat.interval
auf 100 zu ändern, wie in einigen Posts vorgeschlagen, aber kein Glück. Jeder würde wissen, warum es passiert und wie man das löst? Vielen Dank.
Wie in einer sehr ähnlichen Frage hier erwähnt WARN ReliableDeliverySupervisor: Die Verbindung mit dem Remote-System ist fehlgeschlagen, die Adresse ist jetzt für [5000] ms gesperrt. Grund: [Disassociated]
Das Problem ist wahrscheinlich der Mangel an Speicher. Das Hinzufügen von mehr Speicher (oder in diesem Fall mehr Knoten) sollte das Problem lösen.
(Alternativ sollte natürlich auch weniger Speicher benötigt werden.)
Tags und Links scala hadoop apache-spark