Ich habe eine largeDataFrame
(mehrere Spalten und Milliarden von Zeilen) und eine smallDataFrame
(einzelne Spalte und 10.000 Zeilen).
Ich möchte alle Zeilen aus dem largeDataFrame
filtern, wenn die Spalte some_identifier
in largeDataFrame
mit einer der Zeilen in smallDataFrame
übereinstimmt.
Hier ist ein Beispiel:
largeDataFrame
%Vor%smallDataFrame
%Vor%gewünschter Ausgang
%Vor%Hier ist meine hässliche Lösung.
%Vor%Gibt es eine sauberere Lösung?
Tags und Links apache-spark dataframe apache-spark-sql