apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
2
Antworten

(Spark) Objekt {Name} ist kein Mitglied des Pakets org.apache.spark.ml

Ich versuche, eine in sich geschlossene Anwendung mit scala on apache spark basierend auf einem Beispiel hier auszuführen: Ссылка Hier ist mein vollständiger Code: %Vor% Abhängigkeiten in build.sbt: %Vor% Allerdings habe ich nach de...
27.10.2016, 10:07
2
Antworten

Kann die col-Funktion in pyspark nicht finden

In pyspark 1.6.2 kann ich col function mit importieren %Vor% Aber wenn ich versuche, es im Github-Quellcode nachzuschlagen Ich finde keine col Funktion in functions.py Datei, wie kann Python eine Funktion importieren, die nicht ex...
20.10.2016, 19:38
7
Antworten

Erstellen eines Datenrahmens aus einer Textdatei in Spark

Ich habe eine Textdatei auf HDFS und möchte sie in Spark in einen Datenrahmen konvertieren. Ich verwende den Spark-Kontext, um die Datei zu laden und dann zu versuchen, einzelne Spalten aus dieser Datei zu erzeugen. %Vor% Nachdem ich dies...
21.04.2016, 10:06
2
Antworten

Wie kann Spark auf eine neuere Version aktualisiert werden?

Ich habe eine virtuelle Maschine, die Spark 1.3 hat, aber ich möchte sie auf Spark 1.5 aktualisieren, hauptsächlich wegen bestimmter unterstützter Funktionalitäten, die nicht in 1.3 waren. Ist es möglich, dass ich die Spark Version von...
24.11.2015, 06:55
2
Antworten

Wie verbinde ich Master und Slaves in Apache-Spark? (Standalone-Modus)

Ich verwende die Spark-Standalone-Modus -Tutorialseite, um Spark im Standalone-Modus zu installieren. 1- Ich habe einen Master von: gestartet %Vor% 2- Ich habe einen Mitarbeiter von: gestartet %Vor% Hinweis: spark://ubuntu:7077 i...
08.02.2015, 20:23
2
Antworten

filter funken datenframe mit row field, das ist ein Array von strings

Verwenden von Spark 1.5 und Scala 2.10.6 Ich versuche, einen Datenrahmen über ein Feld "Tags" zu filtern, das ein Array von Strings ist. Suchen Sie nach allen Zeilen mit dem Tag 'privat'. %Vor% bekommen:    Ausnahme im Thread "main" or...
17.01.2016, 00:14
5
Antworten

PySpark & ​​MLLib: Zufällige Forest Feature-Bedeutungen

Ich versuche, die Feature-Imports eines zufälligen Forest-Objekts, das ich mit PySpark trainiert habe, zu extrahieren. Ich sehe jedoch kein Beispiel dafür, dies irgendwo in der Dokumentation zu tun, noch ist es eine Methode von RandomForestModel...
10.03.2015, 19:01
4
Antworten

NoClassDefFoundError: SparkSession - obwohl Build funktioniert

Ich habe Ссылка kopiert in ein neues Projekt und richten Sie eine build.sbt ein %Vor% Ich bin in der Lage, es von IntelliJ 2016.2.5 zu bauen, aber ich, wenn ich den Fehler bekomme %Vor% Ich kann sogar auf SparkSession klicken und zum Q...
02.11.2016, 15:32
4
Antworten

Erzeugt mehrere Kontexte

Kurz gesagt : EC2-Cluster: 1 Master 3 Slaves Spark-Version: 1.3.1 Ich möchte die Option spark.driver.allowMultipleContexts , einen lokalen Kontext (nur Master) und einen Cluster (Master und Slaves) verwenden. Ich bekomme diesen S...
28.09.2015, 16:07
1
Antwort

RDD in iterable konvertieren: PySpark?

Ich habe eine RDD, die ich erstelle, indem ich eine Textdatei lade und vorbearbeite. Ich möchte es nicht sammeln und auf der Festplatte oder dem Speicher (ganze Daten) speichern, sondern es lieber an eine andere Funktion in Python weitergeben, d...
24.09.2015, 22:07