Wenn Sie Paare von Produkten möchten, die Kunden kaufen, können Sie einen Self-Join verwenden:
%Vor%Sie können dies auf mehr als zwei Produkte ausdehnen, indem Sie mehr Joins verwenden.
1.
Array
%Vor%Mehrere Spalten
%Vor%2.
Gibt die Häufigkeit der Kombinationen aller Produkte zurück.
In Ihrem Beispiel ist (p1,p2,p3)
am häufigsten (erscheint zweimal).
(p1,p2)
wird einmal angezeigt, also auch (p2,p3)
.
Für die Frequenz der Tupel, siehe @GordonLinoff Antwort.
Ich weiß, dass Cursor nicht mehr der Geschmack des Monats sind - aber ich finde sie immer noch von Zeit zu Zeit sehr nützlich
Der folgende Code erstellt eine Tabellenvariable und durchläuft anschließend die Verkaufsdaten , um herauszufinden, welche Kombination von Produkten am häufigsten zusammen verkauft wird
%Vor%Dies ergibt die Ergebnisse:
CombinationName --------- CombinationsFound
Koks -------------------------- 3
Chips | Koks ------------------ 2
Chips -------------------------- 1
Cola | Süßigkeiten ---------------- 1
Interpretation der obigen Ergebnisse:
Meistens, 3 mal , hat ein Kunde nur Cola (s) gekauft
Als nächstes kaufte zweimal ein Kunde Chips und eine Cola
Einmal kaufte ein Kunde nur Chips
Und einmal kaufte ein Kunde eine Cola & amp; Süßigkeiten
Tags und Links sql apache-spark hive hiveql