Apache Pig kann Daten aus Hadoop-Sequenzdateien mithilfe der PiggyBank SequenceFileLoader
:
REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;
DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();
log = LOAD '/data/logs' USING SequenceFileLoader AS (...)
Gibt es auch eine Bibliothek, die das Schreiben von Hadoop-Sequenzdateien von Pig ermöglicht?
Es ist nur eine Frage der Implementierung eines StoreFunc dazu.
Dies ist jetzt möglich, obwohl es nach dem Erscheinen von Pig 0.7 etwas einfacher wird, da es ein komplettes Redesign der Load / Store-Interfaces beinhaltet.
Das "Hadoop-Erweiterungspaket" Twitter steht kurz vor der Open Source-Einführung github , enthält Code zum Erzeugen von Load- und Store-Funktionen basierend auf Google-Protokoll-Puffern (aufbauend auf Input / Output-Formaten für diese - Sie haben diese natürlich bereits für Sequenz-Dateien). Sehen Sie es sich an, wenn Sie Beispiele dafür benötigen, wie Sie einige der weniger trivialen Dinge tun können. Es sollte jedoch ziemlich einfach sein.
Tags und Links hadoop apache-pig