Apache Pig ist eine Plattform zur Analyse großer Datenmengen, die aus einer Hochsprache zum Ausdrücken von Datenanalyseprogrammen besteht, gekoppelt mit einer Infrastruktur zur Auswertung dieser Programme. Die herausragende Eigenschaft von Pig-Programmen ist, dass ihre Struktur einer wesentlichen Parallelisierung zugänglich ist, die es ihnen ermöglicht, sehr große Datenmengen zu verarbeiten.
Verwendung von Apache Pig Version 0.10.1.21 (rexported). Wenn ich ein Schwein-Skript ausführe, gibt es viele INFO-Protokollzeilen, die so aussehen:
%Vor%
Gibt es einen SET-Befehl innerhalb des Pig-Skripts oder ein Befehlszeilen-Flag, um di...
Von diesem:
%Vor%
... Wie können wir das erzeugen?
%Vor%
... Und wie könnten wir das erzeugen?
%Vor%
Für eine einzelne Zeile weiß ich wie es geht. Das Problem ist, wenn ich über viele Zeilen Iterieren und gleichzeitig interne Gruppen...
Ich versuche, ein lateinisches Skript für Schweine zu schreiben, um die Anzahl der von mir gefilterten Datensätze zu ermitteln.
Hier ist das Skript so weit:
%Vor%
Aus irgendeinem Grund bekomme ich den Fehler:
Konnte die übereinstimm...
Ich habe eine Reihe von Datensätzen, die ich aus einer Datei lade, und das erste, was ich tun muss, ist die Max und Min einer Spalte.
In SQL würde ich dies mit einer Unterabfrage wie folgt tun:
%Vor%
Ich nehme an, es muss einen einfachen Weg...
Was ist der Unterschied zwischen PIG-Scripts lokal und auf mapreduce?
Ich verstehe mapreduce Modus, wenn Sie es auf einem Cluster ausführen, auf dem hdfs installiert ist. Bedeutet dies, dass der lokale Modus kein HDFS benötigt und somit auch Ma...
Ich bin neu bei Pig und ich möchte einen Beutel mit Tupeln in eine Karte mit einem bestimmten Wert in jedem Tupel als Schlüssel konvertieren. Grundsätzlich möchte ich ändern:
{(id1, value1),(id2, value2), ...} in [id1#value1, id2#value2]...
Das ist meine Datei:
Col1, Col2, Col3, Col4, Col5
Ich brauche nur Col2 und Col3 .
Momentan mache ich das:
%Vor%
Gibt es eine Möglichkeit, nur Col2 und Col3 direkt zu laden, anstatt die gesamten input und dann gener...
Ich habe eine Sammlung von Tupeln der Form (t, a, b), die ich in Pig nach b gruppieren möchte. Sobald ich gruppiert bin, möchte ich b aus den Tupeln in jeder Gruppe herausfiltern und einen Beutel gefilterter Tupel pro Gruppe erzeugen.
Als Bei...