NoSql oder MySQL für Data Analytics

Question

NoSql oder MySQL für Data Analytics

8

Wir haben einen Cluster (Hadoop, Schwein), der Daten von 350 GB verarbeitet (ein paar GB pro Woche).

Alle diese Daten müssen für Analytics verfügbar gemacht werden.

Wir haben eine Msyql-Lösung mit einem Sternschema (nur Teile von Daten werden darauf geladen). Aber

Sorge ist, wie weit man das ausstrecken kann?

Sollte ich NoSQL wie Hive für die Datenanalyse betrachten?

Ich habe diesen Artikel Ссылка

gelesen

Wie groß ist Big Data und wann sollte ich von MySQL wegschauen? Wird die strukturelle Starrheit von Mysql Probleme verursachen?

Derzeit sind die Daten nur wenige GB (in MySQL), aber es wird sicherlich wachsen. Wie wäre es mit MySQL-Clustering?

Sollte ich überhaupt diesen Weg gehen?

mysql nosql hive

AlgoMan 15.10.2011, 21:49

quelle

4 Antworten

2

Die Frage ist natürlich jetzt schon viele Monate alt, aber ... Ich bin kürzlich auf InfiniDB gestoßen, das ein MySQL-Frontend auf eine hochskalierbare MapReduce-basierte Big-Data-Engine stellt, die speziell auf Analysen ausgerichtet ist. Es kann eine Lösung für dieses Problem sein - im Prinzip sollte es hereinfallen und sehr wenig Administration und wenige Codeänderungen erfordern. Das Skalieren auf einer Box oder auf mehreren Servern wird unterstützt ...

drive-by poster 10.06.2012 04:47

quelle

1

Sie wechseln, wenn Sie anfangen, die Arten von Problemen zu haben, die in etwas wie dieser vergleichenden Frage beschrieben werden: Ссылка

Abgesehen davon ist es etwas schwierig, die Frage zu beantworten, die über den allgemeinen Rat hinausgeht, weil Sie kein spezifisches Problem darstellen, das Sie zu lösen versuchen (z. B. Skalierung, Lesegeschwindigkeit, Probleme mit 100% Konsistenz usw.) .).

jefflunt 15.10.2011 22:02

quelle

1

InfiniDB ist nicht kostenlos.

Schauen Sie sich Ссылка

an

Dies ist wie Map-Reduce über eine Shared-Nothing-Gruppe von Datenbanken. Funktioniert hervorragend für STAR-Schemas. Zerschneide die Faktentabelle über N Knoten und dupliziere die Dimensionstabellen auf jedem Server.

Sie können diesen Blogbeitrag für weitere Informationen und Leistungstestergebnisse lesen:

Ссылка

Zu Ihrer Information: Ich bin der Autor von Shard-Query.

Justin Swanhart 08.08.2012 06:11

quelle

Tags und Links mysql nosql hive

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Absturz auf dem iOS-Gerät, wenn ein Zeiger rückgängig gemacht wird, der von NSCoders decodeBytesForKey zurückgegeben wurde

score 14 · Accepted Answer

350 Gb (wachsende Anzahl GB pro Woche) ... All diese Daten müssen für Analytics verfügbar gemacht werden

Haben Sie MySQL-Gurus im Haus? Wenn ja, sicher = & gt; Erstellen und erweitern Sie einfach diesen MySQL-Cluster. Das einzige Problem mit dieser Lösung ist nicht, dass es MySQL ist, und es ist nicht nicht ein NoSQL = & gt; Es ist buchstäblich, weil es ein Experte erfordert, um es einzurichten und immer an Ihrer Seite zu sein, falls es geändert werden muss. Aber rate mal was = & gt; SQL ist VIEL besser und einfacher für die Analyse als eine SQL-Simulation mit Map / Reduction.

Etwas, das später zu einem Problem mit MySQL-Lösung werden kann, ist Oracle . Stellen Sie also sicher, dass Sie verstehen, welche Funktionen von MySQL Sie kostenlos nutzen können und welche Funktionen Sie dafür bezahlen müssen.

Wenn Sie nicht einen MySQL-Experten im Haus haben oder nicht dafür bezahlen möchten, können Sie sich definitiv an NoSQL wenden. Es bedeutet nicht, dass Sie keine NoSQL-Produktkenntnisse benötigen, aber die Konfiguration und Ausführung von X-Knoten als ein einziges System ist ein äußerst einfacher und natürlicher Prozess für NoSQL-Lösungen.

Zum Beispiel werden in Riak und einigen anderen NoSQL-Biestern die meisten Verteilungskomplexitäten vom Produkt gelöst, ohne dass Sie überhaupt etwas tun müssen = & gt; Es ist wirklich so einfach.

Der Preis, den Sie mit NoSQL bezahlen, ist der Verlust von SQL (denken Sie über nette Aggregierungsfunktionen nach) und die Konsistenz, die schließlich ist. Wenn Sie streng Analytik betreiben, ist Konsistenz für Sie kein Preis alles.

Dafür erhalten Sie eine sehr natürliche Handhabung von Big Data, Fehlertoleranz und viel mehr .

Wenn du dich im Hadooooxyz-Raum befindest und es dir gut geht zu bezahlen, schaue dir Hadapt an, was 5-mal Hive-Leistung verspricht .