bigdata

Big Data ist ein Konzept, das sich mit Datensätzen extremer Volumina beschäftigt. Fragen beziehen sich meist auf Infrastruktur, Algorithmen, Statistiken und Datenstrukturen.
1
Antwort

Python Pandas: Konvertiere 2.000.000 DataFrame Zeilen in die binäre Matrix (pd.get_dummies ()) ohne Speicherfehler?

Ich verarbeite eine große Datei von Datensätzen mit 2,000,000 rows. Jede Zeile enthält Funktionen zu E-Mails und ein binäres Label [0,1] für Nicht-Spam bzw. Spam. Ich möchte alle Features wie email_type , die Werte von [1,10] anneh...
08.04.2016, 12:19
1
Antwort

Ist in spark join die Tabellenreihenfolge wie beim Schwein?

Bezieht sich auf Spark - Verbinden von 2 PairRDD-Elementen Wenn Sie einen regulären Join in einem Schwein ausführen, wird die letzte Tabelle im Join nicht in den Speicher geladen, sondern stattdessen durchgestreamt. Wenn A also eine kleine...
24.02.2015, 11:24
1
Antwort

Wie können Kafka-Einschränkungen vermieden werden? [geschlossen]

Wir versuchen, ein BI-System zu erstellen, das sehr große Datenmengen sammelt, die von anderen Komponenten verarbeitet werden sollen. Wir haben uns entschieden, dass es eine gute Idee ist, eine Zwischenschicht zum Sammeln, Speichern & Amp; vert...
21.07.2014, 11:06
1
Antwort

Impala-Cluster von tragbaren Binärdateien ausführen

Ich evaluiere mehrere Big-Data-Tools. Einer von ihnen ist natürlich Impala. Ich möchte Impala Cluster starten, indem ich Prozesse auf den Clusterknoten manuell starte. Wie ich gerade für Spark, H2O, Presto und Dask mache, möchte ich Binärdateie...
22.08.2016, 20:03
4
Antworten

Effiziente Lösung zum Gruppieren gleicher Werte in einem großen Dataset

Bei meiner Arbeit sollte ich eine Lösung für das folgende Problem entwickeln und implementieren: Gegeben ein Datensatz von 30M Datensätze Tupel (Schlüssel, Wert) Tupel aus dem bestimmten Datensatzfeld, gruppieren sie nach Schlüssel und Wert s...
15.10.2012, 08:49
0
Antworten

Parkett hat beim Lesen keinen Speicher mehr

Ich versuche, mich gegen eine große Matrix zu vermehren, die im Parkettformat gespeichert ist. Ich achte also darauf, die RDD nicht im Speicher zu speichern, sondern bekomme vom Parkettleser einen OOM-Fehler: %Vor% Insbesondere ist die Matri...
06.12.2015, 06:02