apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
1
Antwort

Spark Heap Speicher Config und Wolfram

Ich dachte, dass Funke mit der Integration des Projekts "tungeste" automatisch Off-Heap-Speicher verwenden würde. Was für sind spark.memory.offheap.size und spark.memory.offheap.enabled? Muss ich hier manuell den Umfang des Off-Heap-Speichers...
10.04.2017, 18:55
1
Antwort

Apache Spark - MlLib - Gemeinsame Filterung

Ich versuche, MlLib für meine kollaborative Filterung zu verwenden. Ich erhalte den folgenden Fehler in meinem Scala-Programm, wenn ich es in Apache Spark 1.0.0 ausführe. %Vor% Wie kann ich diesen Fehler beheben?     
15.07.2014, 12:32
2
Antworten

NotSerializableException mit json4s on Spark

Grundsätzlich muss ich einige komplexe JSONs auf HDFS mit Spark analysieren. Ich benutze "for comprehensions", um die JSON- und die "extract" -Methode (vor) zu filtern von json4s, um es in eine Fallklasse zu packen Das funktioniert gut!...
16.07.2014, 16:49
1
Antwort

Spark Streaming Kumulierte Wörter zählen

Dies ist ein Spark-Streaming-Programm in Scala geschrieben. Er zählt die Anzahl der Wörter aus einer Steckdose alle 1 Sekunde. Das Ergebnis wäre die Wortzählung, z. B. die Wortzählung von Zeit 0 bis 1 und die Wortzählung dann von Zeit 1 bis 2. A...
16.07.2014, 03:40
2
Antworten

Apache-Funke beim Zwischenspeichern des Speichers

Spark speichert den Arbeitsdatensatz im Speicher und führt dann Berechnungen mit Speichergeschwindigkeiten durch. Gibt es eine Möglichkeit zu steuern, wie lange der Arbeitssatz im Arbeitsspeicher liegt? Ich habe eine große Menge an Daten, auf...
11.11.2014, 05:32
1
Antwort

Spark Graphx: Wie man ein Diagramm durchläuft, um ein Diagramm von Nachbarn zweiten Grades zu erstellen

Ich bin ein absoluter Anfänger mit Funken / Hadoop / Graph-Berechnung, bitte Entschuldige meine Anfängerfrage. Ich habe ein Diagramm mit graphx erstellt. Nun, für jeden Eckpunkt möchte ich bekommen alle seine Nachbarn zweiten Grades. Also wen...
05.08.2014, 20:30
2
Antworten

Kann keine einfache Aufgabe auf dem ec2-funcluster vom lokalen pyspark erledigen

Ich versuche, pyspark von meinem Mac auszuführen, um auf einem EC2-Funke-Cluster zu rechnen Wenn ich mich beim Cluster anmelde, funktioniert es wie erwartet: %Vor% Dann mache eine einfache Aufgabe %Vor% Funktioniert wie erwartet: %Vor%...
26.06.2014, 21:23
3
Antworten

SQL-Abfrage Häufigkeit Verteilungsmatrix für Produkt

Ich möchte eine Häufigkeitsverteilungsmatrix erstellen %Vor% Kann jemand bitte mir für eine Lösung zu diesem helfen     
12.03.2017, 15:08
2
Antworten

Welchen HBase Connector für Spark 2.0 sollte ich verwenden?

Unser Stack besteht aus Google Data Proc (Spark 2.0) und Google BigTable (HBase 1.2.0) und ich suche nach einem Connector, der mit diesen Versionen arbeitet. Die Spark 2.0 und die neue DataSet API-Unterstützung ist für die gefundenen Connecto...
01.12.2016, 11:00
1
Antwort

Was ist der Unterschied zwischen Spark ML- und MLLIB-Paketen?

Ich habe bemerkt, dass es in SparkML zwei LinearRegressionModel -Klassen gibt, eine in ML und eine weitere in MLLib -Paket. Diese zwei sind ziemlich unterschiedlich implementiert - z.B. Der eine von MLLib implementiert Serializable...
08.08.2016, 18:10