apache-spark

Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing.
1
Antwort

ON DUPLICATE KEY UPDATE beim Einfügen von pyspark dataframe in eine externe Datenbanktabelle über JDBC

Nun, ich benutze PySpark und ich habe einen Spark-Datenrahmen, mit dem ich die Daten in eine MySQL-Tabelle einfüge. url = "jdbc:mysql://hostname/myDB?user=xyz&password=pwd" df.write.jdbc(url=url, table="myTable", mode="append")...
16.09.2015, 11:21
0
Antworten

Doc2Vec und PySpark: Gensim Doc2vec über DeepDist

Ich schaue mir das DeepDist ( Link ) Modul an und denke, es mit Gensim s Doc2Vec API zu kombinieren Absatzvektoren auf PySpark . Der Link enthält tatsächlich das folgende saubere Beispiel für die Vorgehensweise für Gensim s Word2V...
25.02.2016, 00:40
1
Antwort

Die beste Methode zum Senden von Apache-Spark-Loggins an redis / logstash in einem Amazon EMR-Cluster [geschlossen]

Ich übermittle Jobs auf einem Amazon EMR-Cluster. Ich möchte, dass alle Spark Logging an redis / logstash gesendet werden. Was ist der richtige Weg, Funken unter EMR zu konfigurieren, um dies zu tun? Keep log4j: Fügen Sie eine Bootstrap-Akt...
03.08.2015, 15:16
1
Antwort

Spark SQL konnte das Schreiben von Parquet-Daten mit einer großen Anzahl von Shards nicht abschließen

Ich versuche, Apache Spark SQL zu verwenden, um JSL-Protokolldaten in S3 in Parquet-Dateien auch auf S3 zu setzen. Mein Code ist im Grunde: %Vor% Dieser Code funktioniert, wenn ich bis zu 2000 Partitionen habe und für 5000 oder mehr fehlschl...
10.10.2014, 02:46
1
Antwort

Ausführen eines Apache Spark Programms auf YARN von IntelliJ IDEA

Ich habe Apache Spark 1.1.1 für die Ausführung auf YARN (Hadoop-2.5.2) eingerichtet. Ich kann Programme mit dem Befehl spark-submit ausführen. Ich benutze IntelliJ IDEA 14. Ich bin in der Lage, Artefakte zu erstellen und den resultierenden...
02.12.2014, 21:23
4
Antworten

Entfernen von leeren Zeichenketten aus Karten in scala

%Vor% Im obigen Codefragment kann die Tokenize-Funktion leere Zeichenfolgen zurückgeben. Wie überspringe ich das Hinzufügen zur Karte in diesem Fall? oder entfernen Sie leere Einträge nach dem Hinzufügen zur Karte?     
05.11.2014, 09:31
3
Antworten

Zusammenfassen mehrerer Spalten mit benutzerdefinierten Funktionen in Spark

Ich habe mich gefragt, ob es eine Möglichkeit gibt, eine benutzerdefinierte Aggregationsfunktion für Spark-Dataframes über mehrere Spalten hinweg anzugeben. Ich habe eine solche Tabelle vom Typ (Name, Artikel, Preis): %Vor% zu: Ich möc...
09.06.2016, 23:38
5
Antworten

Spark, ML, StringIndexer: Behandlung von unsichtbaren Labels

Mein Ziel ist es, einen multicals-Klassifikator zu erstellen. Ich habe eine Pipeline für die Merkmalsextraktion erstellt und enthält als ersten Schritt einen StringIndexer-Transformer, um jeden Klassennamen einem Label zuzuordnen. Dieses Labe...
08.01.2016, 16:20
1
Antwort

Spark: Welche Optionen können mit DataFrame.saveAsTable oder DataFrameWriter.options übergeben werden?

Weder die Entwickler- noch die API-Dokumentation enthält einen Hinweis darauf, welche Optionen in DataFrame.saveAsTable oder DataFrameWriter.options übergeben werden können, und sie würden sich auf das Speichern einer Hive-Tabelle auswirke...
18.07.2015, 02:43
5
Antworten

Pyspark: Liste der Dateien / Verzeichnisse im HDFS-Pfad abrufen

Wie im Titel. Ich kenne textFile, aber wie der Name schon sagt, funktioniert es nur für Textdateien. Ich müsste auf die Dateien / Verzeichnisse in einem Pfad auf HDFS (oder lokalen Pfad) zugreifen. Ich benutze pyspark Danke für die Hilfe    ...
02.03.2016, 14:53