PySpark-Datenformat konvertiert ungewöhnliches Zeichenfolgenformat in Timestamp

Question

PySpark-Datenformat konvertiert ungewöhnliches Zeichenfolgenformat in Timestamp

8

Ich benutze PySpark über Spark 1.5.0. Ich habe ein ungewöhnliches String-Format in Zeilen einer Spalte für Datetime-Werte. Es sieht so aus:

%Vor%

Gibt es eine Möglichkeit, dieses unorthodoxe yyyy_mm_dd hh_mm_dd -Format in einen Timestamp zu konvertieren? Etwas, das schließlich in die Richtung von

kommen kann %Vor%

Ich dachte, dass Spark SQL-Funktionen wie regexp_replace funktionieren könnten, aber natürlich muss ich ersetzen _ mit - in der Datumshälfte und _ mit : im Zeitteil. Ich dachte, ich könnte die Spalte in 2 mit substring teilen und vom Ende der Zeit rückwärts zählen. Dann führe 'regexp_replace' separat aus und verkette es dann. Aber das scheint zu vielen Operationen? Gibt es einen einfacheren Weg?

apache-spark pyspark spark-dataframe

PR102012 22.08.2016, 20:47

quelle

1 Antwort

Tags und Links apache-spark pyspark spark-dataframe

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Delphi self Schlüsselwort

score 16 · Accepted Answer

16

Spark & gt; = 2,2

%Vor%

Spark & lt; 2.2

Es ist nichts, was unix_timestamp nicht behandeln kann:

%Vor%

zero323 22.08.2016, 21:35

quelle