Ich versuche, die Transformation in Spark DStream in Spark Streaming zu verstehen.
Ich wusste, dass transform in viel Superlativ im Vergleich zu Karte, aber Kann mir jemand ein Echtzeitbeispiel oder ein klares Beispiel geben, das die Transformation und die Karte unterscheiden kann?
Die Funktion transform
im Spark-Streaming ermöglicht es, alle Transformationen von Apache Spark für die zugrunde liegende RDDs
für den Stream zu verwenden. map
wird für eine Element-zu-Element-Transformation verwendet und könnte mit transform
implementiert werden. Im Wesentlichen funktioniert map
an den Elementen DStream
und transform
ermöglicht es Ihnen, mit RDDs
von DStream zu arbeiten. Sie finden Ссылка , um nützlich zu sein.
map
ist eine elementare Transformation und transform
ist eine RDD-Transformation
map (func): Geben Sie einen neuen DStream zurück, indem Sie jedes Element der Quelle übergeben DStream durch eine Funktion func.
Hier ist ein Beispiel, das sowohl den Map-Vorgang als auch den Transformationsvorgang auf einem DStream zeigt.
%Vor% Die Operation map
fügt jedem Element in allen RDDs innerhalb von DStream 1 hinzu und gibt eine Ausgabe wie unten gezeigt
%Vor%transform (func): Gibt einen neuen DStream zurück, indem eine RDD-to-RDD-Funktion angewendet wird zu jeder RDD der Quelle DStream. Dies kann verwendet werden, um willkürlich zu machen RDD-Operationen auf dem DStream.
transform ermöglicht RDD-Operationen wie Join, Union usw. auf den RDDs innerhalb von DStream auszuführen, der hier angegebene Beispielcode erzeugt eine Ausgabe wie folgt
%Vor% Hier wird die commonRdd
, die das Element 0
enthält, eine Vereinigungsoperation mit allen zugrunde liegenden RDDs innerhalb des DStream durchgeführt.
Mit der Transformationsfunktion in Spark Streaming können Sie beliebige Umwandlungen von zugrunde liegenden RDDs in Stream durchführen. Zum Beispiel können Sie zwei RDDs im Streaming verbinden, indem Sie Transform verwenden, wobei eine RDD eine RDD ist, die aus Textdatei oder parallelisierter Sammlung erstellt wurde und eine andere RDD aus Stream von Textdatei / Socket usw. kommt.
Map funktioniert für jedes RDD-Element in einem bestimmten Stapel und führt nach Anwendung der Funktion, die an Map übergeben wurde, zum RDD.
Tags und Links apache-spark spark-streaming