Wir haben einen Cluster (Hadoop, Schwein), der Daten von 350 GB verarbeitet (ein paar GB pro Woche).
Alle diese Daten müssen für Analytics verfügbar gemacht werden.
Wir haben eine Msyql-Lösung mit einem Sternschema (nur Teile von Daten werden darauf geladen). Aber
Sorge ist, wie weit man das ausstrecken kann?
Sollte ich NoSQL wie Hive für die Datenanalyse betrachten?
Ich habe diesen Artikel Ссылка
gelesenWie groß ist Big Data und wann sollte ich von MySQL wegschauen? Wird die strukturelle Starrheit von Mysql Probleme verursachen?
Derzeit sind die Daten nur wenige GB (in MySQL), aber es wird sicherlich wachsen. Wie wäre es mit MySQL-Clustering?
Sollte ich überhaupt diesen Weg gehen?
350 Gb (wachsende Anzahl GB pro Woche) ... All diese Daten müssen für Analytics verfügbar gemacht werden
Haben Sie MySQL-Gurus im Haus? Wenn ja, sicher = & gt; Erstellen und erweitern Sie einfach diesen MySQL-Cluster. Das einzige Problem mit dieser Lösung ist nicht, dass es MySQL ist, und es ist nicht nicht ein NoSQL = & gt; Es ist buchstäblich, weil es ein Experte erfordert, um es einzurichten und immer an Ihrer Seite zu sein, falls es geändert werden muss. Aber rate mal was = & gt; SQL ist VIEL besser und einfacher für die Analyse als eine SQL-Simulation mit Map / Reduction.
Etwas, das später zu einem Problem mit MySQL-Lösung werden kann, ist Oracle . Stellen Sie also sicher, dass Sie verstehen, welche Funktionen von MySQL Sie kostenlos nutzen können und welche Funktionen Sie dafür bezahlen müssen.
Wenn Sie nicht einen MySQL-Experten im Haus haben oder nicht dafür bezahlen möchten, können Sie sich definitiv an NoSQL wenden. Es bedeutet nicht, dass Sie keine NoSQL-Produktkenntnisse benötigen, aber die Konfiguration und Ausführung von X-Knoten als ein einziges System ist ein äußerst einfacher und natürlicher Prozess für NoSQL-Lösungen.
Zum Beispiel werden in Riak und einigen anderen NoSQL-Biestern die meisten Verteilungskomplexitäten vom Produkt gelöst, ohne dass Sie überhaupt etwas tun müssen = & gt; Es ist wirklich so einfach.
Der Preis, den Sie mit NoSQL bezahlen, ist der Verlust von SQL (denken Sie über nette Aggregierungsfunktionen nach) und die Konsistenz, die schließlich ist. Wenn Sie streng Analytik betreiben, ist Konsistenz für Sie kein Preis alles.
Dafür erhalten Sie eine sehr natürliche Handhabung von Big Data, Fehlertoleranz und viel mehr .
Wenn du dich im Hadooooxyz-Raum befindest und es dir gut geht zu bezahlen, schaue dir Hadapt an, was 5-mal Hive-Leistung verspricht .
Die Frage ist natürlich jetzt schon viele Monate alt, aber ... Ich bin kürzlich auf InfiniDB gestoßen, das ein MySQL-Frontend auf eine hochskalierbare MapReduce-basierte Big-Data-Engine stellt, die speziell auf Analysen ausgerichtet ist. Es kann eine Lösung für dieses Problem sein - im Prinzip sollte es hereinfallen und sehr wenig Administration und wenige Codeänderungen erfordern. Das Skalieren auf einer Box oder auf mehreren Servern wird unterstützt ...
Sie wechseln, wenn Sie anfangen, die Arten von Problemen zu haben, die in etwas wie dieser vergleichenden Frage beschrieben werden: Ссылка
Abgesehen davon ist es etwas schwierig, die Frage zu beantworten, die über den allgemeinen Rat hinausgeht, weil Sie kein spezifisches Problem darstellen, das Sie zu lösen versuchen (z. B. Skalierung, Lesegeschwindigkeit, Probleme mit 100% Konsistenz usw.) .).
InfiniDB ist nicht kostenlos.
Schauen Sie sich Ссылка
anDies ist wie Map-Reduce über eine Shared-Nothing-Gruppe von Datenbanken. Funktioniert hervorragend für STAR-Schemas. Zerschneide die Faktentabelle über N Knoten und dupliziere die Dimensionstabellen auf jedem Server.
Sie können diesen Blogbeitrag für weitere Informationen und Leistungstestergebnisse lesen:
Zu Ihrer Information: Ich bin der Autor von Shard-Query.