Ich benutze PySpark über Spark 1.5.0. Ich habe ein ungewöhnliches String-Format in Zeilen einer Spalte für Datetime-Werte. Es sieht so aus:
%Vor% Gibt es eine Möglichkeit, dieses unorthodoxe yyyy_mm_dd hh_mm_dd
-Format in einen Timestamp zu konvertieren?
Etwas, das schließlich in die Richtung von
Ich dachte, dass Spark SQL-Funktionen wie regexp_replace
funktionieren könnten, aber natürlich muss ich ersetzen
_
mit -
in der Datumshälfte
und _
mit :
im Zeitteil.
Ich dachte, ich könnte die Spalte in 2 mit substring
teilen und vom Ende der Zeit rückwärts zählen. Dann führe 'regexp_replace' separat aus und verkette es dann. Aber das scheint zu vielen Operationen? Gibt es einen einfacheren Weg?
Tags und Links apache-spark pyspark spark-dataframe