Ich bin sehr neu bei PIG und ich habe etwas, was sich wie ein sehr grundlegendes Problem anfühlt. Ich habe eine Codezeile, die lautet:
%Vor% wobei jede Datei im Grunde eine Zeile von 4 kommagetrennten Wörtern ist. PIG teilt dies jedoch nicht in die 4 Wörter auf. Wenn ich A
dump mache, bekomme ich: (Money, coins, loans, debt,,,)
Ich habe versucht zu googeln und ich kann nicht finden, in welchem Format meine Datei sein muss, damit PIG es richtig interpretiert. Bitte helfen Sie!
Ihr Problem ist, dass Pig standardmäßig Dateien lädt, die durch den Tabulator getrennt sind , nicht Komma. Was passiert, ist "Money, coins, loans, debt"
bleibt in Ihrer ersten Spalte stecken, word1
. Wenn Sie es drucken, erhalten Sie die Illusion, dass Sie mehrere Spalten haben, aber wirklich die erste wird mit Ihrer ganzen Linie gefüllt, dann sind die anderen Null.
Um das zu beheben, sollten Sie PigStorage
angeben, um es mit Komma zu laden, indem Sie Folgendes tun:
Tags und Links hadoop apache-pig