apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
2
Antworten

Apache Spark löst NullPointerException aus, wenn ein fehlendes Feature gefunden wird

Ich habe ein bizarres Problem mit PySpark beim Indexieren der Spalte von Strings in Features. Hier ist meine tmp.csv-Datei: %Vor% wo ich einen fehlenden Wert für 'x0' habe. Zuerst lese ich Funktionen aus der CSV-Datei mit Hilfe von pyspark_c...
06.11.2015, 20:02
2
Antworten

Mehrere Zeilen in einem Spark-Dataframe zu einer einzelnen Zeile zusammenführen

Ich habe einen Datenrahmen mit 2 Spalten: Zeitstempel, Wert Zeitstempel ist eine Zeit seit der Epoche und Wert ist ein Gleitkommawert. Ich möchte Zeilen auf Durchschnittswerte von min zusammenführen. Das bedeutet, dass ich alle Zeilen nehmen möc...
07.09.2015, 14:57
2
Antworten

Kann SPARK Multicore richtig benutzen?

Ich habe über Funken gelesen und herausgefunden, dass der Funke in Scala geschrieben ist. Da es sich bei scala um eine funktionale Sprache wie Erlang handelt, kann Multi-Core korrekt verwendet werden. Ist das richtig? Ich frage mich, ob ich F...
18.04.2015, 11:52
2
Antworten

Stoppen Sie den Streaming-Kontext in Spark Streaming nach einer gewissen Zeit

Ich erstelle eine Anwendung, die DStreams von Twitter empfängt. Die einzige Möglichkeit, den Streaming-Kontext zu stoppen, besteht darin, die Ausführung zu stoppen. Ich frage mich, ob es eine Möglichkeit gibt, eine Zeit einzustellen und den Stre...
29.06.2015, 13:19
7
Antworten

funke console: 12: Fehler: nicht gefunden: Wert sc

Ich schrieb folgendes: %Vor% und es zeigt einen Fehler an: %Vor% Irgendwelche Hilfe?     
08.08.2014, 12:42
2
Antworten

SparkSQL MissingRequirementError beim Registrieren der Tabelle

Ich bin ein Neuling für Scala und Apache Spark und versuche, Spark SQL zu verwenden. Nach dem Klonen des Repo habe ich die Spark-Shell gestartet, indem ich bin/spark-shell eingegeben und folgendes ausgeführt habe: %Vor% und alles hat wi...
07.01.2015, 16:44
2
Antworten

Iteriere durch einen Java RDD nach Zeile

Ich würde gerne durch eine RDD von Strings iterieren und "tue etwas" für jeden String. Die Ausgabe sollte double[][] sein. Hier ist ein Beispiel mit einer for-Schleife. Ich verstehe, dass ich (denke ich) die Funktion foreach für Java RDDs...
05.08.2015, 14:04
1
Antwort

Spark Sql RegisterTempTable und RegisterDataFrameAsTable Unterschied

Was ist der Unterschied zwischen registerTempTable und registerDataFrameAsTable Methode in Spark SQL und welche ist besser in welchem ​​Szenario?     
24.07.2015, 04:48
2
Antworten

org.apache.spark.SparkException: Job aufgrund eines Stage-Fehlers abgebrochen: Task aus der Anwendung

Ich habe ein Problem mit der Ausführung von Spark-Anwendungen im Standalone-Cluster. (Ich benutze funken 1.1.0 Version). Ich führe Masterserver erfolgreich durch Befehl: %Vor% Dann führe ich einen Arbeiter per Befehl aus: %Vor% Auf der W...
12.11.2014, 17:00
3
Antworten

Spark scheitert bei großen Shuffle-Jobs mit java.io.IOException: Dateisystem geschlossen

Ich finde oft, dass Funken bei großen Jobs mit einer ziemlich sinnlosen Ausnahme versagen. Die Worker-Protokolle sehen normal aus, keine Fehler, aber sie erhalten den Status "KILLED". Dies ist sehr häufig bei großen Shuffles, so Operationen wie...
04.06.2014, 13:34