apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
2
Antworten

Verwendung von S3 (Frankfurt) mit Spark

Jeder benutzt s3 auf Frankfurt mit hadoop / spark 1.6.0? Ich versuche das Ergebnis eines Jobs in s3 zu speichern, meine Abhängigkeiten werden wie folgt deklariert: %Vor% Ich habe folgende Konfiguration vorgenommen: %Vor% Wenn ich sav...
15.04.2016, 12:23
2
Antworten

Kombinieren Sie Ergebnisse aus Batch-RDD mit Streaming-RDD in Apache Spark

Kontext: Ich verwende Apache Spark, um eine laufende Anzahl verschiedener Ereignistypen aus Protokollen zu aggregieren. Die Protokolle werden sowohl in Cassandra für historische Analysezwecke als auch in Kafka für Echtzeitanalysezwecke gespeic...
23.10.2014, 02:59
3
Antworten

Effizienteres Laden von Parkettdateien in Spark (pySpark v1.2.0)

Ich lade in hochdimensionale Parkett-Dateien, brauche aber nur ein paar Spalten. Mein aktueller Code sieht so aus: %Vor% Mein geistiges Modell für das, was passiert, ist, dass es alle Daten einlädt und dann die Spalten auswirft, die ich nich...
22.04.2015, 16:33
3
Antworten

Spark auf localhost

Für Testzwecke, während ich kein Produktionscluster habe, benutze ich lokal spark: %Vor% Außerdem verwende ich einen sehr sehr kleinen Datensatz, bestehend aus nur 20 Zeilen in einer Postgresql-Datenbank (~ 2kb) Auch (!) ist mein Code zie...
03.11.2016, 20:59
1
Antwort

Spark - Serialisierung eines Objekts mit einem nicht serialisierbaren Element

Ich werde diese Frage im Kontext von Spark stellen, denn das ist es, womit ich konfrontiert bin, aber das könnte ein einfaches Java-Problem sein. In unserem Spark-Job haben wir ein Resolver , das in allen unseren Mitarbeitern verwendet werd...
21.01.2018, 19:53
2
Antworten

Ist das ein Fehler in Spark Stream oder Speicherleck?

Ich übermittle meinen Code an einen Funke-Standalone-Cluster. Senden Befehl ist wie folgt: %Vor% Ich spezifiziere den Executor 4G Speicher im obigen Befehl verwenden. Aber benutze den Befehl top, um den Executor-Prozess zu überwachen. Ich me...
11.05.2016, 03:14
1
Antwort

Der Objektfunke ist kein Mitglied der Paketorganisation

Beim Importieren des folgenden in Eclipse Scala-IDE %Vor% Ich bekomme diesen Fehler: Object spark is not a member of package org Ich habe die sbt-0.13.9.msi installiert Was soll ich noch tun? build.sbt %Vor%     
26.11.2015, 18:53
3
Antworten

Echtzeit-Protokollverarbeitung mit Apache-Spark-Streaming

Ich möchte ein System erstellen, in dem ich Protokolle in Echtzeit lesen und apache spark verwenden kann, um es zu verarbeiten. Ich bin verwirrt, wenn ich etwas wie Kafka oder Gerinne verwenden sollte, um die Logs zum Funkenstrom zu leiten, oder...
22.02.2015, 07:03
1
Antwort

Spark Streaming mit einer dynamischen Nachschlagetabelle

Ich bin derzeit dabei, Spark-Streaming zu verwenden, um Logfile-ähnliche Einträge aufzunehmen und aus statistischen Gründen etwas zu berechnen. Es gibt Datensätze auf HDFS, auf die HBase und Hive gerade zugreifen können, die benötigt werden,...
01.02.2015, 16:13
1
Antwort

Fehler kann nicht verstanden werden "SparkListenerBus hat bereits gestoppt! Löschvorgang ... "

Das Problem Ich würde gerne wissen, ob jemand eine magische Methode hat, um solche Nachrichten in Spark-Logs zu vermeiden: %Vor% Nach weiteren Untersuchungen verstehe ich, dass LiveListenerBus erweitert AsynchronousListenerBus . Und...
01.09.2015, 20:48