Speichern von Daten in SequenceFile von Apache Pig

Question

Speichern von Daten in SequenceFile von Apache Pig

9

Apache Pig kann Daten aus Hadoop-Sequenzdateien mithilfe der PiggyBank SequenceFileLoader :

laden

REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;

DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();

log = LOAD '/data/logs' USING SequenceFileLoader AS (...)

Gibt es auch eine Bibliothek, die das Schreiben von Hadoop-Sequenzdateien von Pig ermöglicht?

hadoop apache-pig

asquithea 11.03.2010, 09:52

quelle

2 Antworten

2

Das schien für mich zu funktionieren. Ссылка

qqz 31.05.2012 22:07
quelle

Tags und Links hadoop apache-pig

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Auswirkungen von 'instanceof' in Android Java-Code

score 2 · Accepted Answer

Es ist nur eine Frage der Implementierung eines StoreFunc dazu.

Dies ist jetzt möglich, obwohl es nach dem Erscheinen von Pig 0.7 etwas einfacher wird, da es ein komplettes Redesign der Load / Store-Interfaces beinhaltet.

Das "Hadoop-Erweiterungspaket" Twitter steht kurz vor der Open Source-Einführung github , enthält Code zum Erzeugen von Load- und Store-Funktionen basierend auf Google-Protokoll-Puffern (aufbauend auf Input / Output-Formaten für diese - Sie haben diese natürlich bereits für Sequenz-Dateien). Sehen Sie es sich an, wenn Sie Beispiele dafür benötigen, wie Sie einige der weniger trivialen Dinge tun können. Es sollte jedoch ziemlich einfach sein.