elastic-map-reduce, Seitenzahl 1

0

Antworten

Langsame Performance mit Apache Spark Gradient Boosted Tree Trainingsläufen

Ich experimentiere mit Gradienten Boosted Trees Lernalgorithmus aus der ML-Bibliothek von Spark 1.4. Ich löse ein binäres Klassifizierungsproblem, bei dem meine Eingabe ~ 50.000 Samples und ~ 500.000 Features ist. Mein Ziel ist es, die Definit...

21.09.2015, 19:22

2

Antworten

Amazon Elastic Map Reduce - Erstellen eines Jobablaufs

Ich bin sehr neu bei Amazon Diensten. Ich habe Probleme bei der Schaffung von Arbeitsabläufen. Jedes Mal, wenn ich einen Jobfluss erstelle, schlägt er fehl oder wird heruntergefahren. Input-, Output- oder Mapper-Funktionen Upload-Techniken sind...

22.01.2013, 11:57

3

Antworten

Spark + EMR verwendet die Amazon-Einstellung "maximizeResourceAllocation" nicht alle Cores / Vcores

Ich führe einen EMR-Cluster (Version emr-4.2.0) für Spark mit dem Amazon-spezifischen maximizeResourceAllocation -Flag wie dokumentiert hier . Diesen Dokumenten zufolge "berechnet diese Option die maximalen Rechen- und Speicherressourcen, die...

30.11.2015, 16:51

1

Antwort

Hadoop-Parameter mit Boto einstellen?

Ich versuche, fehlerhafte Eingaben für meine Amazon Elastic MapReduce-Jobs zu überspringen. Ich folge dem wunderbaren Rezept, das hier beschrieben wird: Ссылка Der obige Link besagt, dass ich die folgenden Konfigurationsparameter für ein...

22.08.2012, 10:48

2

Antworten

parallele Generierung von zufälligen Gesamtstrukturen mit scikit-learn

Hauptfrage: Wie kombiniere ich verschiedene randomForest in python und scikit-learn? Ich verwende derzeit das randomForest-Paket in R, um Randomforest-Objekte mithilfe von Elastic Map Reduce zu generieren. Dies soll ein Klassifizierungsproble...

18.09.2014, 13:39

1

Antwort

Python-Client-Unterstützung für die Ausführung von Hive auf Amazon EMR

Ich habe festgestellt, dass weder mrjob noch boto eine Python-Schnittstelle unterstützen, um Hive-Jobs auf Amazon Elastic MapReduce (EMR) zu senden und auszuführen. Gibt es noch andere Python-Client-Bibliotheken, die die Ausführung von Hive auf...

23.05.2011, 22:36

1

Antwort

Amazon MapReduce Best Practices für die Log-Analyse

Ich analysiere Zugriffsprotokolle, die von Apache, Nginx, Darwin (Video-Streaming-Server) generiert wurden, und aggregiere Statistiken für jede gelieferte Datei nach Datum / Referrer / Useragent. Jede Stunde werden Tonnen von Protokollen gene...

23.03.2012, 11:47

1

Antwort

Festlegen der maximalen Anzahl der gleichzeitig ausgeführten Aufgaben pro Knoten in Hadoop 2.4.0 auf Elastic MapReduce

Nach Ссылка , Die Formel zum Bestimmen der Anzahl der gleichzeitig ausgeführten Aufgaben pro Knoten lautet: %Vor% Beim Einstellen dieser Parameter auf (für einen Cluster von c3.2xlarges): garn.nodemanager.resource.memory-mb = 14336 ma...

07.08.2014, 22:18