Ich habe eine Reihe von Datensätzen, die ich aus einer Datei lade, und das erste, was ich tun muss, ist die Max und Min einer Spalte. In SQL würde ich dies mit einer Unterabfrage wie folgt tun:
%Vor%Ich nehme an, es muss einen einfachen Weg geben, dies auch in PIG zu tun, aber ich habe Probleme, es zu finden. Es hat eine MAX- und MIN-Funktion, aber wenn ich Folgendes versuchte, funktionierte es nicht:
%Vor%Das hat nicht funktioniert. Ich hatte mehr Glück, jeder Zeile eine zusätzliche Spalte mit demselben Wert hinzuzufügen und sie dann in dieser Spalte zu gruppieren. Dann erhalte ich den Maximalwert für diese neue Gruppe. Dies scheint wie eine gewundene Art und Weise zu bekommen, was ich will, also dachte ich, ich würde fragen, ob jemand einen einfacheren Weg kennt.
Vielen Dank im Voraus für die Hilfe.
Wie Sie gesagt haben, müssen Sie alle Daten zusammen gruppieren, aber keine zusätzliche Spalte ist erforderlich, wenn Sie ALLE GRUPPIEREN .
Schwein
%Vor%Eingabe
%Vor%Ausgabe
%Vor%Tags und Links hadoop apache-pig