apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
2
Antworten

Spark Streaming Kafka Nachrichten nicht verbraucht

Ich möchte Nachrichten von einem Thema in Kafka (Broker v 0.10.2.1 ) mit Spark (1.6.2) Streaming empfangen. Ich verwende den Receiver Ansatz. Der Code ist wie folgt: %Vor% Der Zugriff auf Kafka ist kerberisiert . Wenn ich starte...
16.01.2018, 17:32
3
Antworten

Der Start des Apache Spark YARN-Modus dauert zu lange (10+ Sekunden)

Ich führe eine Spark-Anwendung mit dem YARN-Client- oder YARN-Cluster-Modus aus. Aber es scheint zu lange zu brauchen, um zu starten. Es dauert 10+ Sekunden, um den Funkenkontext zu initialisieren. Ist das normal? Oder kann es optimiert...
07.05.2015, 01:07
1
Antwort

Wie treten Sie großen Datenrahmen in Spark SQL? (Best Practices, Stabilität, Leistung)

Ich erhalte denselben Fehler wie Fehlende Ausgabe Speicherort für Shuffle , wenn Sie in Spark SQL großen Datenfeldern beitreten. Die Empfehlung besteht darin, MEMORY_AND_DISK und / oder spark.shuffle.memoryFraction 0 festzulegen. Allerdings...
23.06.2016, 09:34
1
Antwort

Die Google Storage-Datei kann nicht über den GSC-Connector von Spark aus verbunden werden

Ich habe auf meinem lokalen Rechner einen Funke-Job geschrieben, der die Datei aus dem Google Cloud-Speicher mit google hadoop connector wie gs: //storage.googleapis.com/ liest, wie in Ссылка Ich habe Dienstkonto mit Rechenmodul- und Sp...
25.09.2017, 14:28
1
Antwort

Spark RDD entspricht der Scala Collections Partition

Dies ist ein kleines Problem mit einem meiner Funkenjobs, der scheinbar keine Probleme verursacht - doch ärgert es mich jedes Mal, wenn ich es sehe und es versäumt wird, eine bessere Lösung zu finden. Sagen Sie, ich habe eine Scala-Sammlung w...
15.03.2015, 21:22
1
Antwort

Kann keine Funke-Anwendung mit einer Java-Klasse im Cluster aufrufen

Unten ist die Struktur meines Projekts: Funkenanwendung :    scala1.scala // Ich rufe die Java-Klasse von dieser Klasse auf.       java.java // Dies wird eine weitere Funkenanwendung an die Garngruppe senden. Die spark-Anwendung, di...
05.05.2017, 06:57
0
Antworten

Spark LDA verbraucht zu viel Speicher

Ich versuche, Funken mllib lda zu verwenden, um meinen Dokumentenkorpus zusammenzufassen. Meine Problemeinstellung ist wie unten. über 100.000 Dokumente etwa 400.000 einzelne Wörter 100 Cluster Ich habe 16 Server (jeder hat 20 Kern...
14.03.2016, 03:59
1
Antwort

Was passiert, wenn Spark ShuffleBlockFetcherIterator aufruft?

Mein Funkenjob scheint viel Zeit damit zu verschwenden, Blöcke zu bekommen. Manchmal dauert es eine Stunde oder zwei Stunden. Ich habe 1 Partition für mein Dataset, deshalb bin ich mir nicht sicher, warum es so viel mischt. Wer weiß, was genau h...
17.12.2015, 02:13
2
Antworten

scala.ScalaReflectionException: keine ist kein Begriff

Ich habe den folgenden Code in Spark: %Vor% Wo %Vor% Wo: %Vor% saveToCassandra erwartet eine Sammlung von Objekten und verwendet Seq[Any] als Rückgabetyp, um sowohl Seq[A] als auch Seq[B] breaks saveToCassandra mit Aus...
19.11.2015, 18:40
0
Antworten

Langsame Performance mit Apache Spark Gradient Boosted Tree Trainingsläufen

Ich experimentiere mit Gradienten Boosted Trees Lernalgorithmus aus der ML-Bibliothek von Spark 1.4. Ich löse ein binäres Klassifizierungsproblem, bei dem meine Eingabe ~ 50.000 Samples und ~ 500.000 Features ist. Mein Ziel ist es, die Definit...
21.09.2015, 19:22