bigdata

Big Data ist ein Konzept, das sich mit Datensätzen extremer Volumina beschäftigt. Fragen beziehen sich meist auf Infrastruktur, Algorithmen, Statistiken und Datenstrukturen.
1
Antwort

Wie kann ich meine Daten über die Partitionen verteilen?

Bearbeiten : Die Antwort hilft, aber ich habe meine Lösung beschrieben in: MemoryOverhead-Problem in Spark . Ich habe eine RDD mit 202092 Partitionen, die einen Datensatz liest, der von anderen erstellt wurde. Ich kann manuell sehen, dass...
06.08.2016, 01:31
2
Antworten

Wie kann ich wissen, welche Phase eines Jobs gerade in Apache Spark ausgeführt wird?

Denken Sie daran, ich habe einen Job wie folgt in Spark; CSV-Datei == & gt; Nach einer Spalte filtern == & gt; Beispiel nehmen == & gt; Als JSON speichern Nun muss ich wissen, welchen Schritt ( Abrufen der Datei oder Filtern ode...
14.02.2017, 11:03
0
Antworten

Speichergrenzen in der Datentabelle: Negative Längenvektoren sind nicht erlaubt

Ich habe eine Datentabelle mit mehreren Social-Media-Nutzern und deren Followern. Die ursprüngliche Datentabelle hat das folgende Format: %Vor% Jede Zeile enthält also einen Benutzer mit seiner ID und einem Vektor von Anhängern (getrennt dur...
25.04.2016, 13:38
4
Antworten

sortiert große Textdaten

Ich habe eine große Datei (100 Millionen Zeilen von Tab-getrennten Werten - etwa 1,5 GB groß). Was ist der schnellste Weg, um dies basierend auf einem der Felder zu sortieren? Ich habe Bienenstock probiert. Ich würde gerne sehen, ob dies mit...
16.08.2011, 14:08
4
Antworten

Laden Sie eine kleine Stichprobe aus einer großen CSV-Datei in den R-Datenrahmen

Die zu verarbeitende CSV-Datei passt nicht in den Speicher. Wie kann man ~ 20K zufällige Zeilen davon lesen, um grundlegende Statistiken über den ausgewählten Datenrahmen zu machen?     
07.03.2014, 21:32
6
Antworten

Was muss ich über die Arbeit mit riesigen Datenbanken wissen?

Ich möchte wissen, welche spezifischen Probleme / Lösungen / Ratschläge / Best Practices [bestrafen mich für das Wort] entstehen, während Sie mit riesigen Datenbanken arbeiten. Unter riesig implizieren ich Datenbanken, die Tabellen mit Millio...
14.09.2010, 18:06
4
Antworten

Sortieren eines Datenstroms vor dem Schreiben in die Datei in nodejs

Ich habe eine Eingabedatei, die möglicherweise bis zu 1M Datensätze enthalten kann und jeder Datensatz würde so aussehen field 1 field 2 field3 \n Ich möchte diese Eingabedatei lesen und sie basierend auf field3 sortieren, bevo...
22.01.2016, 22:17
3
Antworten

Können große Datasets mit Excel 2013 verwendet werden? [geschlossen]

Ich habe an mehreren Stellen gelesen, dass Excel 2013 (64-Bit) kann größere Datensätze mit mehr Zeilen als zuvor öffnen. Dennoch scheinen meine Grenzen genau dort zu liegen, wo sie 2010 waren. Ich bekomme den gleichen alten Fehler, wenn ich...
11.02.2013, 15:00
1
Antwort

Wie man eine fehlgeschlagene Aufgabe in Airflow neu startet

Ich verwende einen LocalExecutor und mein dag hat 3 Aufgaben , wobei Aufgabe (C) von Aufgabe (A) abhängig ist. Aufgabe (B) und Aufgabe (A) können parallel wie folgt ausgeführt werden: A - & gt; C B So war Aufgabe (A) fehlgeschlagen...
07.04.2017, 06:08
3
Antworten

NumPy Datei mit Filterzeilen im laufenden Betrieb lesen

Ich habe eine große Anzahl von Zahlen in einer CSV-Datei geschrieben und muss nur eine Scheibe dieses Arrays laden. Konzeptionell möchte ich np.genfromtxt() aufrufen und dann das resultierende Array in Zeilen schneiden, aber Die Datei ist...
01.02.2013, 11:56