spark-dataframe

Structured columnar Daten, analog zu Pandas oder R-Datenrahmen, aber mit einer RDD-Basis, die eine massive, verteilte SQL-ähnliche Operation ermöglicht.
1
Antwort

PySpark-Datenformat konvertiert ungewöhnliches Zeichenfolgenformat in Timestamp

Ich benutze PySpark über Spark 1.5.0. Ich habe ein ungewöhnliches String-Format in Zeilen einer Spalte für Datetime-Werte. Es sieht so aus: %Vor% Gibt es eine Möglichkeit, dieses unorthodoxe yyyy_mm_dd hh_mm_dd -Format in einen Timestamp...
22.08.2016, 20:47
1
Antwort

Spark: Speichern von Dataframe partitioniert durch "virtuelle" Spalte

Ich benutze PySpark, um einen klassischen ETL-Job zu machen (Datensatz laden, verarbeiten, speichern) und möchte meinen Dataframe als Dateien / Verzeichnis speichern, das durch eine "virtuelle" Spalte partitioniert ist; Was ich mit "virtual" mei...
16.02.2016, 16:07
7
Antworten

Erstellen eines Datenrahmens aus einer Textdatei in Spark

Ich habe eine Textdatei auf HDFS und möchte sie in Spark in einen Datenrahmen konvertieren. Ich verwende den Spark-Kontext, um die Datei zu laden und dann zu versuchen, einzelne Spalten aus dieser Datei zu erzeugen. %Vor% Nachdem ich dies...
21.04.2016, 10:06
1
Antwort

Python / pyspark Datenrahmen Spalten neu anordnen

Ich habe einen Datenrahmen in python / pyspark mit Spalten id time city zip und so weiter ...... Jetzt habe ich eine neue Spalte name zu diesem Datenrahmen hinzugefügt. Jetzt muss ich die Spalten so anordnen, dass die Spalte...
20.03.2017, 19:16
1
Antwort

Spark: "Die Zeichenfolgendarstellung eines Plans wurde abgeschnitten, da sie zu groß war." Warnung bei Verwendung eines manuell erstellten Aggregationsausdrucks

Ich versuche, für jeden meiner Benutzer einen Vektor zu erstellen, der die durchschnittliche Anzahl der Datensätze pro Stunde des Tages enthält. Daher muss der Vektor 24 Dimensionen haben. Mein ursprünglicher Datenrahmen hat userID und ho...
03.05.2017, 12:21
1
Antwort

Zugriffselement eines Vektors in einem Spark DataFrame (logistischer Regressionswahrscheinlichkeitsvektor) [duplizieren]

Ich habe ein LogisticRegression-Modell in PySpark trainiert (ML-Paket) und das Ergebnis der Vorhersage ist ein PySpark DataFrame ( cv_predictions ) (siehe [1]). Die probability -Spalte (siehe [2]) ist ein vector -Typ (siehe [3]). %Vo...
08.06.2017, 01:17
3
Antworten

Spark DataFrame InsertIntoJDBC - TableAlreadyExists Ausnahme

Mit Spark 1.4.0 versuche ich, Daten aus einem Spark DataFrame mit insertIntoJdbc () in eine MemSQL-Datenbank einzufügen (was genau wie die Interaktion mit einer MySQL-Datenbank sein sollte). Jedoch bekomme ich immer eine Runtime TableAlreadyExis...
02.10.2015, 20:52
1
Antwort

Spark Heap Speicher Config und Wolfram

Ich dachte, dass Funke mit der Integration des Projekts "tungeste" automatisch Off-Heap-Speicher verwenden würde. Was für sind spark.memory.offheap.size und spark.memory.offheap.enabled? Muss ich hier manuell den Umfang des Off-Heap-Speichers...
10.04.2017, 18:55
2
Antworten

pyspark: ValueError: Einige der Typen können nach dem Schluss nicht bestimmt werden

Ich habe einen Pandas-Datenrahmen my_df , und my_df.dtypes gibt uns: %Vor% Dann versuche ich, den Pandas-Datenrahmen my_df in einen Spark-Datenrahmen umzuwandeln, indem ich Folgendes mache: %Vor% Allerdings habe ich folgende Fehl...
09.11.2016, 23:11
2
Antworten

Mehrere Zeilen in einem Spark-Dataframe zu einer einzelnen Zeile zusammenführen

Ich habe einen Datenrahmen mit 2 Spalten: Zeitstempel, Wert Zeitstempel ist eine Zeit seit der Epoche und Wert ist ein Gleitkommawert. Ich möchte Zeilen auf Durchschnittswerte von min zusammenführen. Das bedeutet, dass ich alle Zeilen nehmen möc...
07.09.2015, 14:57