PySpark-Datenformat konvertiert ungewöhnliches Zeichenfolgenformat in Timestamp

8

Ich benutze PySpark über Spark 1.5.0. Ich habe ein ungewöhnliches String-Format in Zeilen einer Spalte für Datetime-Werte. Es sieht so aus:

%Vor%

Gibt es eine Möglichkeit, dieses unorthodoxe yyyy_mm_dd hh_mm_dd -Format in einen Timestamp zu konvertieren? Etwas, das schließlich in die Richtung von

kommen kann %Vor%

Ich dachte, dass Spark SQL-Funktionen wie regexp_replace funktionieren könnten, aber natürlich muss ich ersetzen _ mit - in der Datumshälfte und _ mit : im Zeitteil. Ich dachte, ich könnte die Spalte in 2 mit substring teilen und vom Ende der Zeit rückwärts zählen. Dann führe 'regexp_replace' separat aus und verkette es dann. Aber das scheint zu vielen Operationen? Gibt es einen einfacheren Weg?

    
PR102012 22.08.2016, 20:47
quelle

1 Antwort

16

Spark & ​​gt; = 2,2

%Vor%

Spark & ​​lt; 2.2

Es ist nichts, was unix_timestamp nicht behandeln kann:

%Vor%     
zero323 22.08.2016, 21:35
quelle