Hadoop-Job, der Eingabedateien aus mehreren Verzeichnissen übernimmt

8


  Ich habe eine Situation, in der ich mehrere (mehr als 100 von 2-3 MB) Dateien im komprimierten gz-Format in mehreren Verzeichnissen habe. Zum Beispiel
A1 / B1 / C1 / Teil-0000.gz
A2 / B2 / C2 / Teil-0000.gz
A1 / B1 / C1 / Teil-0001.gz

Ich muss alle diese Dateien in einen Map-Job einspeisen. Wie ich gesehen habe, müssen alle Eingabedateien für die Verwendung von MultipleFileInputFormat im selben Verzeichnis liegen. Ist es möglich, mehrere Verzeichnisse direkt an den Job zu übergeben? Wenn nicht, dann ist es möglich, diese Dateien effizient in ein Verzeichnis zu legen, ohne einen Konflikt zu benennen oder diese Dateien in eine einzelne komprimierte gz-Datei zusammenzuführen.
Hinweis: Ich verwende plain java, um den Mapper zu implementieren und kein Pig- oder Hadoop-Streaming zu verwenden.

Jede Hilfe in Bezug auf das oben genannte Problem wird sehr geschätzt werden.
Danke, Danke Ankit

    
Ankit 04.01.2011, 11:48
quelle

1 Antwort

16

FileInputFormat.addInputPaths () kann eine kommagetrennte Liste mehrerer Dateien wie

verwenden %Vor%     
bajafresh4life 04.01.2011, 14:47
quelle

Tags und Links