Max / Min für ganze Datensätze in PIG

Question

Max / Min für ganze Datensätze in PIG

8

Ich habe eine Reihe von Datensätzen, die ich aus einer Datei lade, und das erste, was ich tun muss, ist die Max und Min einer Spalte. In SQL würde ich dies mit einer Unterabfrage wie folgt tun:

%Vor%

Ich nehme an, es muss einen einfachen Weg geben, dies auch in PIG zu tun, aber ich habe Probleme, es zu finden. Es hat eine MAX- und MIN-Funktion, aber wenn ich Folgendes versuchte, funktionierte es nicht:

%Vor%

Das hat nicht funktioniert. Ich hatte mehr Glück, jeder Zeile eine zusätzliche Spalte mit demselben Wert hinzuzufügen und sie dann in dieser Spalte zu gruppieren. Dann erhalte ich den Maximalwert für diese neue Gruppe. Dies scheint wie eine gewundene Art und Weise zu bekommen, was ich will, also dachte ich, ich würde fragen, ob jemand einen einfacheren Weg kennt.

Vielen Dank im Voraus für die Hilfe.

hadoop apache-pig

Winter 07.03.2011, 18:17

quelle

1 Antwort

Tags und Links hadoop apache-pig

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Wie trennt man ein LINQ-to-SQL-Datenobjekt vom Tracking-Mechanismus des DataContext?

score 15 · Accepted Answer

15

Wie Sie gesagt haben, müssen Sie alle Daten zusammen gruppieren, aber keine zusätzliche Spalte ist erforderlich, wenn Sie ALLE GRUPPIEREN .

Schwein

%Vor%

Eingabe

%Vor%

Ausgabe

%Vor%

Romain 08.03.2011, 19:44

quelle