bigdata

Big Data ist ein Konzept, das sich mit Datensätzen extremer Volumina beschäftigt. Fragen beziehen sich meist auf Infrastruktur, Algorithmen, Statistiken und Datenstrukturen.
2
Antworten

python - Verwenden von Pandas-Strukturen mit großem csv (Iterate und Chunksize)

Ich habe eine große CSV-Datei, etwa 600mb mit 11 Millionen Zeilen und ich möchte statistische Daten wie Pivots, Histogramme, Grafiken usw. erstellen. Offensichtlich versucht, es einfach zu lesen: %Vor% funktioniert nicht, also fand ich iteri...
11.11.2015, 01:48
2
Antworten

Wie sortiere ich die Wortzahl in hadoop nach Wert? [Duplikat]

hi Ich wollte lernen, wie man die Wortzählung nach Wert in hadoop sortiert. Ich kenne Hadoop-Takes von Sortierschlüsseln, aber nicht nach Werten. ich weiß, um die Werte zu sortieren, müssen wir einen Partitionierer, einen Gruppierungskompar...
23.08.2013, 13:16
1
Antwort

Kann RethinkDB große Datenmengen (TB +) verarbeiten und als DB für eine OLAP-Anwendung dienen?

Kann RethinkDB große Datenmengen (d. h. mehrere Terabyte) behandeln, die effektiv als Datenbank für eine Analyseanwendung dienen?     
19.11.2013, 08:39
1
Antwort

Senden Sie KafkaProducer vom lokalen Rechner an die hortonworks-Sandbox in der virtualbox

Ich habe einen wirklich einfachen Produzenten, den ich auf meinem lokalen Windows-Rechner durch eclipse laufe ... Was ich wirklich will, ist, eine Nachricht an kafka weiterzuleiten, damit ich den Broker durch den Tierpfleger anzeigen kann. Nur u...
17.07.2015, 13:13
2
Antworten

Fehler beim Schreiben von Versatzdaten in kafka-storm

Ich habe einen Sturmcluster eingerichtet, um Echtzeittrending und andere Statistiken zu berechnen, allerdings habe ich einige Probleme, die "Wiederherstellungs" -Funktion in dieses Projekt einzuführen, indem ich den Offset erlaubte, der zuletzt...
25.06.2014, 11:58
3
Antworten

R: Ist es möglich, das Einlesen einer 20 Millionen plus Zeilen CSV in R parallel zu machen / zu beschleunigen?

Sobald die CSV-Datei über read.csv geladen wurde, ist es relativ einfach, multicore , segue usw. zu verwenden, um mit den Daten in der CSV herumzuspielen. Es zu lesen, ist jedoch ziemlich die Zeit sinken. Erkenne, dass es besser ist,...
30.01.2012, 07:04
1
Antwort

elasticsearch vs HBase / Hadoop für Echtzeitstatistiken

Ich melde wöchentlich Millionen kleiner Log-Dokumente an: Ad-hoc-Abfragen für Data Mining Verbinden, Vergleichen, Filtern und Berechnen von Werten viele viele Volltextsuche mit Python Führen Sie diese Operationen mit allen Millionen vo...
26.02.2014, 13:48
1
Antwort

Gibt es in Hive die maximale Größe des String-Datentyps?

Google eine Tonne, aber habe es nirgendwo gefunden. Oder bedeutet das, dass Hive einen beliebig großen String-Datentyp unterstützen kann, solange Cluster zulässig ist? Wenn ja, wo finde ich die größte Größe des String-Datentyps, den mein Cluster...
27.01.2016, 07:14
5
Antworten

Wie produziert man riesige Datenmengen?

Ich mache ein paar Tests mit Nutch und Hadoop und ich brauche eine riesige Menge an Daten. Ich möchte mit 20 GB beginnen, 100 GB, 500 GB und schließlich 1-2 TB erreichen. Das Problem ist, dass ich nicht über diese Menge an Daten verfüge, also...
29.12.2011, 12:59
2
Antworten

Verschieben des Google Cloud Storage-Buckets in ein anderes Projekt

Was ist der beste Weg, um einen vorhandenen Google Cloud Storage-Bucket in ein anderes Projekt zu verschieben? Ich möchte es nicht außerhalb von Google Cloud Storage für die Übertragung kopieren, habe zwei Kopien der Daten oder verwende einen...
05.05.2015, 07:33