apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
2
Antworten

Spark Der lineare MLLib-Regressionsmodellabschnitt ist immer 0.0?

Ich beginne gerade mit ML und Apache Spark, also habe ich die lineare Regression basierend auf den Spark-Beispielen getestet. Ich kann nicht scheinen, ein richtiges Modell für irgendwelche Daten außer dem Beispiel in dem Beispiel zu erzeugen, un...
08.10.2014, 14:42
5
Antworten

Dataframe-Beispiel in Apache spark | Scala

Ich versuche, Proben aus zwei Datenrahmen herauszunehmen, wobei ich das Verhältnis der Anzahl beibehalten muss. zB %Vor% Ich möchte die Daten so abtasten, dass ich 10 Proben der Größe 101 bekomme (1 von df1 und 100 von df2) Jetzt währendd...
24.05.2016, 14:42
2
Antworten

MinMax Normalisierung in scala

Ich habe eine org.apache.spark.sql.DataFrame mit mehreren Spalten. Ich möchte 1 Spalte (lat_long_dist) skalieren mit MinMax-Normalisierung oder einer beliebigen Technik, um die Daten zwischen -1 und 1 zu skalieren und den Datentyp als org.apache...
25.11.2015, 19:24
4
Antworten

Spark: Datensätze in Gruppen sortieren?

Ich habe eine Reihe von Datensätzen, die ich brauche: 1) Gruppiere nach 'Datum', 'Stadt' und 'Art' 2) Sortieren Sie jede Gruppe nach 'price In meinem Code: %Vor% Wenn ich versuche, die Gruppe zu sortieren, erhalte ich einen Fehler:...
16.02.2015, 14:21
1
Antwort

Hbase 0.96 mit Spark v 1.0+

Diese Kombination von Hbase / Spark-Versionen scheint ziemlich giftig zu sein. Ich habe Stunden damit verbracht, verschiedene MergeStrategy's zu finden, die funktionieren würden, aber ohne Erfolg. Hier ist der Kern der vorliegenden build.sbt:...
28.06.2014, 03:03
1
Antwort

Wie benutzt man orderby () in absteigender Reihenfolge in Spark-Funktionen?

Ich brauche eine Fensterfunktion, die durch einige Schlüssel (= Spaltennamen) partitioniert, nach einem anderen Spaltennamen sortiert und die Zeilen mit den obersten x-Rängen zurückgibt. Dies funktioniert in aufsteigender Reihenfolge: %Vor%...
25.07.2016, 16:21
5
Antworten

Spark 1.6 - Fehler beim Suchen des Winutils-Binary im binären Hadoop-Pfad

Ich weiß, dass es einen sehr ähnlichen Beitrag zu diesem gibt ( Fehler beim Suchen der Winutils-Binärdatei im binären Hadoop-Pfad ), jedoch habe ich jeden vorgeschlagenen Schritt versucht, und es wird immer noch derselbe Fehler angezeigt. Ich...
09.01.2016, 19:11
1
Antwort

Wie kann ich eine große rdd mit einer sehr großen rdd in spark verbinden?

Ich habe zwei RDDs. Ein RDD ist zwischen 5-10 Millionen Einträge und der andere RDD ist zwischen 500 Millionen - 750 Millionen Einträge. Irgendwann muss ich diese beiden rdds mit einem gemeinsamen Schlüssel verbinden. %Vor% Wenn Spark entsch...
13.07.2015, 19:55
3
Antworten

Was ist effizient, Dataframe oder RDD oder hiveql?

Ich bin ein Neuling für Apache Spark. Mein Job besteht darin, zwei CSV-Dateien zu lesen, bestimmte Spalten daraus auszuwählen, sie zusammenzuführen, zu aggregieren und das Ergebnis in eine einzige CSV-Datei zu schreiben. Zum Beispiel CS...
16.07.2015, 11:49
1
Antwort

Wie fügt man einen Spark-Datenrahmen am Ende eines anderen Datenrahmens ein?

Ich kann withcolumn verwenden, um einem Dataframe neue Spalten hinzuzufügen. Aber wie kann ich einem DataFrame neue Zeilen hinzufügen? Ich versuche, einen Datenrahmen an der Unterseite eines anderen hinzuzufügen. Es hilft also, wie man Zei...
05.11.2015, 17:26