apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
0
Antworten

Kinesis Spark Streaming-Langlebigkeitsprobleme

Ich habe Probleme mit der Langlebigkeit der Spark-Kinesis Streaming-Anwendung, die auf dem Standalone-Clustermanager von Spark ausgeführt wird. Das Programm läuft ungefähr 50 Stunden und hört auf, Daten von Kinesis zu empfangen, ohne einen gülti...
18.04.2016, 19:48
0
Antworten

Optimieren von funkenarmen Früchten, insbesondere Katalysatoroptimierer und Funkenkonfigurationen [geschlossen]

Ich benutze Spark 2.1.1, und ich benutze die Scala API, obwohl die Sprache weniger wichtig ist. Ich bin daran interessiert, Funkenabfragen / Pipelines effizient zu optimieren. Ich habe viel Material gelesen (einschließlich des großartigen "Learn...
06.12.2017, 02:05
2
Antworten

Implementierung der topologischen Sortierung in Spark GraphX

Ich versuche topologische Sortierung mit Hilfe von sparks GraphX ​​ Bibliothek. Dies ist der Code, den ich bisher geschrieben habe: MyObject.scala %Vor% Resource.scala %Vor% Relation.scala %Vor% Ich erhalte den Fe...
18.10.2016, 13:11
0
Antworten

Spark Indefinite Waiting with "Auffordern, Kartenausgabeorte für Shuffle zu senden"

Meine Jobs hängen oft mit dieser Art von Nachricht: %Vor% Wäre großartig, wenn jemand erklären könnte, was Spark macht, wenn es diese Nachricht ausspuckt. Was bedeutet diese Nachricht? Was könnte der Benutzer falsch machen, um dies zu verurs...
01.09.2014, 07:41
2
Antworten

PySpark Logging?

Ich möchte, dass mein in Python geschriebenes Spark-Treiberprogramm einige grundlegende Protokollierungsinformationen ausgibt. Es gibt drei Möglichkeiten, dies zu sehen: Verwenden der PySpark py4j-Bridge, um auf die von Spark verwendete Java...
18.05.2016, 06:19
1
Antwort

Spark Async-Schnittstelle für Falten, Reduzieren, Aggregieren?

In der offiziellen Spark RDD API: Ссылка zählen, sammeln, foreach und nehmen alle asynchrone Varianten, die eine Zukunft zurückgeben. Warum haben falten, reduzieren und aggregieren diese asynchrone / zukünftige Schnittstelle nicht? Da...
31.03.2015, 15:45
2
Antworten

Spark accumulator wird nicht in Spark WebUI angezeigt

Ich benutze Spark-Streaming. Laut dem Spark Programming Guide (siehe Ссылка ) werden in der WebUI wie folgt: Leider kann ich das nirgendwo finden. Ich registriere die Akkumulatoren so (Java): %Vor% Ich verwende Spark 2.0.0.     
23.04.2015, 18:00
3
Antworten

Sparkparkett wird langsamer, wenn Partitionen wachsen

Ich habe eine Spark-Streaming-Anwendung, die Parkettdaten aus dem Stream schreibt. %Vor% dieses Stück Code läuft jede Stunde, aber im Laufe der Zeit hat sich das Schreiben auf Parkett verlangsamt. Als wir angefangen haben, dauerte es 15 Minu...
16.09.2016, 06:46
1
Antwort

Wie erhalten Sie Wahrscheinlichkeiten, die der Klasse von Spark ML random forest entsprechen

Ich habe org.apache.spark.ml.Pipeline für maschinelle Lernaufgaben verwendet. Es ist besonders wichtig, die tatsächlichen Wahrscheinlichkeiten zu kennen und nicht nur ein vorhergesagtes Etikett, und ich habe Schwierigkeiten, es zu bekommen. Hier...
26.02.2016, 00:03
3
Antworten

So beenden Sie die Spark-Submission nach der Übermittlung

Beim Einreichen eines Spark-Streaming-Programms mit Spark-Submit (YARN-Modus) es pollt weiter den Status und beendet nie Gibt es eine Option in spark-submit, um nach der Einreichung zu beenden? === warum das mich beunruhigt === Das Stre...
13.05.2016, 02:39