Liest eine Textdatei von HDFS zeilenweise in Mapper

8

Ist der folgende Code für Mapper, Lesen einer Textdatei von HDFS richtig? Und wenn es ist:

  1. Was passiert, wenn zwei Mapper in verschiedenen Knoten versuchen, die Datei fast gleichzeitig zu öffnen?
  2. Muss InputStreamReader nicht geschlossen werden? Wenn ja, wie geht das, ohne das Dateisystem zu schließen?

Mein Code ist:

%Vor%     
nik686 28.01.2013, 23:33
quelle

1 Antwort

16

Dies funktioniert, mit einigen Änderungen - ich nehme an, dass der Code, den Sie eingefügt haben, nur abgeschnitten ist:

%Vor%

Sie können mehr als einen Mapper haben, der dieselbe Datei liest, aber es gibt eine Grenze, bei der es sinnvoller ist, den verteilten Cache zu verwenden (nicht nur die Belastung der Datenknoten, die die Blöcke für die Datei hosten, sondern auch effizienter sein, wenn Sie einen Job mit einer größeren Anzahl von Aufgaben als Taskknoten haben)

    
Chris White 29.01.2013, 01:38
quelle

Tags und Links