Explosion in PySpark

8

Ich möchte von einem DataFrame, der Listen von Wörtern enthält, in einen DataFrame mit jedem Wort in einer eigenen Zeile transformieren.

Wie mache ich eine Explosion in einer Spalte in einem DataFrame?

Hier ist ein Beispiel mit einigen meiner Versuche, bei denen Sie jede Codezeile auskommentieren können und den Fehler im folgenden Kommentar aufgelistet bekommen. Ich benutze PySpark in Python 2.7 mit Spark 1.6.1.

%Vor%

Bitte um Rat

    
user1982118 05.07.2016, 18:45
quelle

2 Antworten

14

explode und split sind SQL-Funktionen. Beide arbeiten mit SQL Column . split verwendet einen regulären Java-Ausdruck als zweites Argument. Wenn Sie Daten in beliebigen Whitespaces trennen möchten, benötigen Sie Folgendes:

%Vor%     
zero323 05.07.2016, 18:59
quelle
6

Um Leerzeichen zu teilen und Leerzeilen zu entfernen, fügen Sie die where -Klausel hinzu.

%Vor%     
Alexander 05.07.2016 19:00
quelle