apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
1
Antwort

PySpark dataframe.foreach () mit dem HappyBase-Verbindungspool gibt 'TypeError: kann thread.lock-Objekte nicht picken'

Ich habe einen PySpark-Job, der einige Objekte in HBase aktualisiert (Spark v1.6.0; happybase v0.9). Es funktioniert, wenn ich eine HBase-Verbindung für jede Zeile öffne / schließe: %Vor% Nach einigen tausend Upserts sehen wir Fehler wie...
06.04.2016, 15:28
1
Antwort

Spark Serialisierungsfehler Mystery

Sagen wir, ich habe den folgenden Code: %Vor% Jetzt führen wir diesen Code in Spark aus: %Vor% Der obige Code löst org.apache.spark.SparkException: Task not serializable aus. Ich bin frage nicht, wie man es beheben kann , indem ich S...
14.11.2015, 14:34
2
Antworten

Warum ist es möglich, dass "serialisierte Ergebnisse von n Aufgaben (XXXX MB)" größer als "spark.driver.memory" in pyspark sind?

Ich habe mit diesen Einstellungen (ua) einen Spark-Job gestartet: %Vor% Ich habe meinen pyspark -Auftrag debuggt, und er hat mir immer den Fehler mitgeteilt: %Vor% Also habe ich die spark.driver.maxResultSize auf 18 G in den Kon...
17.07.2016, 01:39
1
Antwort

Shuffle Manager in Spark verstehen

Lassen Sie mich klären, wie shuffle depth funktioniert und wie Spark shuffle manager verwendet. Ich melde einige sehr hilfreiche Ressourcen: Ссылка Ссылка Ссылка Wenn ich sie lese, habe ich verstanden, dass es verschiedene...
11.01.2017, 08:09
2
Antworten

make spark verwendet die Datei / etc / hosts für die Bindung im YARN-Cluster-Modus

Lassen Sie ein Funke-Cluster-Setup auf einem Computer mit zwei Inet, einem öffentlichen anderen privaten. Die Datei / etc / hosts im Cluster hat die interne IP-Adresse aller anderen Maschinen im Cluster, so.    interner_ip FQDN Wenn ich j...
08.11.2015, 06:33
2
Antworten

Ist es notwendig, ein Funkenanwendungsglas einzureichen?

Wie bereits im Titel erwähnt, frage ich mich, ob es notwendig ist, * .jar zu funken ?. Ich benutze Datastax Enterprise Cassandra für eine Weile, aber jetzt muss ich auch Spark verwenden. Ich habe fast alle Videos von DS320: DataStax Enterpri...
19.01.2016, 12:09
1
Antwort

Spark-Treiber wurde vom Master dissoziiert und entfernt

Ich habe einen Cluster, der von zwei Slaves und einem Master erstellt und eingerichtet wurde, und ich übergebe dem Master (192.168.1.64) ein Jar (Scala): %Vor% Nach einiger Zeit, wenn es gut läuft, stoppt es abrupt, wobei die letzten Zeilen...
19.08.2015, 15:08
1
Antwort

Spark: Effizientere Aggregation zum Verknüpfen von Strings aus verschiedenen Zeilen

Ich arbeite gerade mit DNA-Sequenzdaten und bin in einen Performance-Roadblock geraten. Ich habe zwei Nachschlagewörterbücher / Hashes (als RDDs) mit DNA-Wörtern (kurze Sequenzen) als Schlüssel und einer Liste von Indexpositionen als Wert. Ei...
19.12.2015, 20:57
2
Antworten

ElasticSearch zu Spark RDD

Ich habe die ElasticSearch- und Spark-Integration auf meinem lokalen Rechner getestet, indem ich einige in elasticsearch geladene Testdaten verwendet habe. %Vor% Der Code läuft gut und liefert das korrekte Ergebnis erfolgreich mit esRDD.firs...
11.08.2014, 21:58
0
Antworten

Parkett hat beim Lesen keinen Speicher mehr

Ich versuche, mich gegen eine große Matrix zu vermehren, die im Parkettformat gespeichert ist. Ich achte also darauf, die RDD nicht im Speicher zu speichern, sondern bekomme vom Parkettleser einen OOM-Fehler: %Vor% Insbesondere ist die Matri...
06.12.2015, 06:02