mapreduce

MapReduce ist ein Algorithmus zur Verarbeitung großer Datasets zu bestimmten Arten von verteilbaren Problemen unter Verwendung einer großen Anzahl von Knoten
2
Antworten

MapReduce Ergebnisse scheinen auf 100 begrenzt zu sein?

Ich spiele mit Map Reduce in MongoDB und Python herum und habe eine seltsame Einschränkung erfahren. Ich versuche nur die Anzahl der "Buch" -Rekorde zu zählen. Es funktioniert, wenn es weniger als 100 Datensätze gibt, aber wenn es über 100 Daten...
10.11.2012, 02:56
1
Antwort

Was bedeutet Bühne in den Funkenprotokollen?

Wenn ich einen Job mit Funken starte, bekomme ich die folgenden Protokolle? [Stage 0:> (0 + 32) / 32] Hier entspricht 32 der Anzahl der Partitionen von rdd, nach denen ich gefragt habe. Aber ich verstehe nicht, waru...
07.10.2015, 14:29
1
Antwort

Wie kann ich von einer HBase-Instanz lesen, aber in eine andere schreiben?

Zur Zeit habe ich zwei Hbase-Tabellen (nennen wir sie tableA und tableB ). Mit einem einstufigen MapReduce-Job werden die Daten in tableA gelesen und in tableB gespeichert. Derzeit befinden sich beide Tabellen im selben HBase-Cluster....
09.04.2015, 19:35
1
Antwort

MongoDB Map / Array-Aggregationsfrage reduzieren

Ich habe eine MongoDB-Sammlung, deren Dokumente mehrere Verschachtelungsebenen verwenden, aus denen ich ein mehrdimensionales Array extrahieren möchte, das aus einer Teilmenge ihrer Felder kompiliert wurde. Ich habe eine Lösung, die gerade für m...
10.06.2011, 05:02
3
Antworten

MultipleTextOutputFormat Alternative in der neuen API

Wie bereits erwähnt, wurde MultipleTextOutputFormat nicht auf die neue API migriert. Wenn wir also ein Ausgabeverzeichnis auswählen und fiename basierend auf dem im laufenden Betrieb geschriebenen Schlüsselwert ausgeben müssen, welche Alternativ...
26.02.2013, 22:26
1
Antwort

Warum die Hive_Staging-Datei in AWS EMR fehlt

Problem - Ich führe 1 Abfrage in AWS EMR aus. Es schlägt fehl, indem eine Ausnahme ausgelöst wird - %Vor% Ich habe im Folgenden alle diesbezüglichen Informationen zu diesem Problem erwähnt. Bitte überprüfen Sie. Abfrage - %Vor%...
17.09.2016, 12:47
5
Antworten

Wenn HBase als Quelle für MapReduce verwendet wird, kann ich TableInputFormatBase erweitern, um mehrere Teilbereiche und mehrere Mapper für jede Region zu erstellen?

Ich denke darüber nach, HBase als Quelle für einen meiner MapReduce-Jobs zu verwenden. Ich weiß, dass TableInputFormat eine Eingabeaufteilung (und damit einen Mapper) pro Region angibt. Dies scheint jedoch ineffizient zu sein. Ich würde wirklich...
14.06.2012, 18:54
1
Antwort

Wie gruppiert man Mongodb-Zeitpunktinformationen in zusammenhängende Zeitgruppen?

Ich habe eine Sammlung von Entscheidungsdokumenten in ähnlicher Form wie: %Vor% Ich habe Mühe, eine Möglichkeit zu finden, diese Dokumente in Gruppen von zusammenhängenden Datumsangaben zu gruppieren. I.e. Ein Dokument sollte zu einer bestim...
05.09.2016, 15:27
2
Antworten

Bigramme wirklich schnell zählen (mit oder ohne Multiprocessing) - Python

In Anbetracht der big.txt von norvig.com/big.txt ist das Ziel, die Bigramme wirklich schnell zu zählen (Imagine dass ich das 100.000 mal wiederholen muss). Nach Fast / Optimize N-Gramm-Implementierungen in Python Das Extrahieren von Bi...
02.11.2016, 06:03
3
Antworten

Kann ich in einer CouchDB-Ansicht Gruppen zählen und gleichzeitig nach Schlüsselbereichen filtern?

Ich benutze CouchDB. Ich möchte in der Lage sein, Vorkommen von Werten bestimmter Felder innerhalb eines Datumsbereichs zu zählen, der zum Abfragezeitpunkt angegeben werden kann. Ich scheine in der Lage zu sein, Teile davon zu tun, aber ich habe...
17.10.2012, 22:19