apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
2
Antworten

EntityTooLarge-Fehler beim Hochladen einer 5G-Datei in Amazon S3

Die Amazon S3-Dateigrößenbeschränkung soll gemäß dieser Ankündigung , aber ich bekomme den folgenden Fehler beim Hochladen einer 5G-Datei %Vor% Das lässt den Eindruck entstehen, dass S3 nur 5G-Uploads akzeptiert. Ich verwende Apache Spark S...
11.10.2014, 22:15
1
Antwort

Was ist der Unterschied zwischen Spark DataSet und RDD?

Ich habe immer noch Schwierigkeiten, die volle Leistungsfähigkeit der kürzlich eingeführten Spark Datasets zu verstehen. Gibt es Best Practices für die Verwendung von RDDs und die Verwendung von Datasets? Databricks erklärt in ihrer Ankün...
16.02.2016, 05:57
1
Antwort

Ermittelt die einzelnen Elemente jeder Gruppe nach einem anderen Feld in einem Spark 1.6 Dataframe

Ich versuche in einem Spark-Datenrahmen nach Datum zu gruppieren und zähle für jede Gruppe die eindeutigen Werte einer Spalte: %Vor% Und der Code: %Vor% Die Ergebnisse mit pyspark sind %Vor% Und was ich erwarte, ist so etwas mit Pand...
17.03.2016, 15:19
4
Antworten

was ist der genaue Unterschied zwischen Spark Transformation in DStream und map?

Ich versuche, die Transformation in Spark DStream in Spark Streaming zu verstehen. Ich wusste, dass transform in viel Superlativ im Vergleich zu Karte, aber Kann mir jemand ein Echtzeitbeispiel oder ein klares Beispiel geben, das die Transfor...
23.08.2015, 14:57
1
Antwort

Wie sortiere ich eine RDD und limit in Spark?

Ich habe RDD der Foo-Klasse: class Foo( name : String, createDate : Date ) . Ich möchte eine andere RDD mit 10 Prozent älterem Foo . Meine erste Idee war, nach createDate zu sortieren und um 0,1 * zu zählen, aber es gibt keine Limit-Funkt...
05.10.2015, 11:52
1
Antwort

scala vs java für Spark? [geschlossen]

Kann jemand mir helfen zu verstehen, warum Leute Scala über Java für Funken benutzen? Ich habe recherchiert, konnte aber keine solide Antwort finden. Ich weiß, dass beide gut funktionieren, da beide auf JVM laufen und ich weiß, dass wir funktion...
11.01.2016, 23:30
2
Antworten

Wo ist die Spark-Benutzeroberfläche bei Google Dataproc?

Welchen Port sollte ich verwenden, um auf die Spark-Benutzeroberfläche von Google Dataproc zuzugreifen? Ich habe versucht Port 4040 und 7077 sowie eine Reihe anderer Ports, die ich gefunden habe, mit netstat -pln Firewall ist richtig ko...
18.10.2015, 00:35
3
Antworten

Spark Java-Anwendung: java.lang.ClassNotFoundException

Ich habe eine Apache Spark-Anwendung mit Java erstellt. Es zählt nur die Zeilen mit dem "Funken" -Wort 1000 Mal. Hier ist mein Code: %Vor% Wenn ich in der Eclipse-IDE debugge, stoße ich auf java.lang.ClassNotFoundException : %Vor% I...
13.06.2014, 13:30
4
Antworten

PySpark & ​​MLLib: Klassenwahrscheinlichkeiten von zufälligen Waldvorhersagen

Ich versuche, die Klassenwahrscheinlichkeiten eines zufälligen Waldobjekts zu extrahieren, das ich mit PySpark trainiert habe. Ich sehe jedoch nirgendwo in der Dokumentation ein Beispiel dafür und auch keine Methode von RandomForestModel ....
02.03.2015, 20:15
1
Antwort

Das Ausführen der RDD ist fehlgeschlagen, während Spark record delimiter mit org.apache.hadoop.conf.Configuration festgelegt wurde

Ich möchte eine große Textdatei "mydata.txt" (die Größe der tatsächlichen Datei beträgt etwa 30 GB) mit Spark bearbeiten. Es ist Datensatzbegrenzer ist "\ |" gefolgt von "\ n". Da das Standard-Record-Trennzeichen der Ladedatei (von "sc.textFile"...
28.11.2014, 03:26