apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
1
Antwort

Funke-Submit mit --master yarn-cluster laufen lassen: Problem mit Funke-Baugruppe

Ich führe Spark 1.1.0, HDP 2.1, auf einem kerberisierten Cluster aus. Ich kann Spark-Submit erfolgreich ausführen, indem ich --master yarn-client verwende und die Ergebnisse korrekt in HDFS geschrieben werden. Der Job wird jedoch nicht auf der H...
18.12.2014, 22:59
1
Antwort

Standardpartitionierungsschema in Spark

Wenn ich den folgenden Befehl ausführe:  %Vor% Es heißt, dass es 10 Partitionen gibt und die Partitionierung mit HashPartitioner erfolgt. Aber wenn ich unter Befehl ausführen:  %Vor% Es besagt, dass es vier Partitionen gibt und der Pa...
28.12.2015, 09:53
1
Antwort

Was steuert, wie viel Spark Cluster einer Anwendung gegeben wird?

Auf dieser Seite der Dokumentation Ссылка für die statische Partitionierung heißt es: "Mit diesem Ansatz Jede Anwendung erhält eine maximale Menge an Ressourcen, die sie verwenden kann. " Ich habe mich nur gefragt, was sind diese maximalen R...
14.01.2015, 14:11
1
Antwort

scala code throw Ausnahme in Funken

Ich bin neu in Scala und Funke. Heute habe ich versucht, etwas Code zu schreiben, und ließ es auf Funken laufen, aber bekam eine Ausnahme. Dieser Code funktioniert in lokaler Scala %Vor% aber wenn ich diesen Code in funken setze, wirft es...
01.01.2015, 06:21
1
Antwort

Spark Kryo: Registrieren Sie einen benutzerdefinierten Serializer

Ich habe eine Klasse, die einen benutzerdefinierten Kryo-Serialisierer implementiert, indem sie die Methoden read() und write() von com.esotericsoftware.kryo.Serializer implementiert (siehe Beispiel unten). Wie kann ich diesen benutzer...
22.03.2016, 01:20
5
Antworten

Spark Streaming + Kafka: SparkException: Es konnten keine Vorlaufoffsets für Set gefunden werden

Ich versuche, Spark Streaming einzurichten, um Nachrichten aus der Kafka-Warteschlange zu erhalten. Ich erhalte den folgenden Fehler: %Vor% Hier ist der Code, den ich ausführe (pyspark): %Vor% Es gab ein paar ähnliche Posts mit demselben...
15.12.2015, 11:48
3
Antworten

Spark DataFrame InsertIntoJDBC - TableAlreadyExists Ausnahme

Mit Spark 1.4.0 versuche ich, Daten aus einem Spark DataFrame mit insertIntoJdbc () in eine MemSQL-Datenbank einzufügen (was genau wie die Interaktion mit einer MySQL-Datenbank sein sollte). Jedoch bekomme ich immer eine Runtime TableAlreadyExis...
02.10.2015, 20:52
4
Antworten

PySpark verteilte Verarbeitung auf einem YARN-Cluster

Ich habe Spark auf einem Cloudera CDH5.3-Cluster ausgeführt, wobei YARN als Ressourcenmanager verwendet wird. Ich entwickle Spark Apps in Python (PySpark). Ich kann Jobs einreichen und sie werden erfolgreich ausgeführt, scheinen jedoch nie au...
30.01.2015, 05:06
1
Antwort

Wie werden RDDs mit einer Python-Klasse verarbeitet?

Ich implementiere ein Modell in Spark als Python-Klasse, und jedes Mal, wenn ich versuche, eine Klassenmethode einer RDD zuzuordnen, schlägt es fehl. Mein tatsächlicher Code ist komplizierter, aber diese vereinfachte Version wird zum Kern des Pr...
10.09.2015, 15:02
4
Antworten

Wie man Pyspark in Anaconda importiert

Ich versuche, pyspark mit Anaconda zu importieren und zu verwenden. Nachdem ich Spark installiert und die $SPARK_HOME Variable gesetzt habe, habe ich versucht: %Vor% Dies wird nicht funktionieren (natürlich), weil ich entdeckt habe,...
19.11.2015, 20:43