Was ist der Unterschied und die Bedeutung dieser beiden Aussagen, auf die ich in einem Vortrag stieß:
%Vor%und
%Vor%Sie erwähnen einen der Gründe, warum Hadoop und andere NoSQL-Strategien so erfolgreich waren, also bin ich mir nicht sicher, ob Sie eine Dissertation erwarten oder nicht, aber hier ist es! Die zusätzliche Flexibilität und Agilität in der Datenanalyse hat wahrscheinlich zur Explosion der "Data Science" beigetragen, nur weil sie die Datenanalyse im großen Maßstab allgemein vereinfacht.
Eine traditionelle relationale Datenbank speichert die Daten im Hinblick auf das Schema. Es weiß, dass die zweite Spalte eine ganze Zahl ist, weiß, dass es 40 Spalten usw. hat. Daher müssen Sie Ihr Schema im Voraus angeben und gut planen. Dies ist "Schema beim Schreiben" - das heißt, das Schema wird angewendet, wenn die Daten in den Datenspeicher geschrieben werden.
Hive (in einigen Fällen), Hadoop und viele andere NoSQL-Systeme befassen sich im Allgemeinen mit "Schema beim Lesen" - das Schema wird angewendet, während die Daten aus dem Datenspeicher ausgelesen werden. Betrachten Sie die folgende Zeile von Rohtext:
%Vor% Es gibt mehrere Möglichkeiten, dies zu interpretieren. ~
könnte das Trennzeichen sein oder möglicherweise :
könnte das Trennzeichen sein. Wer weiß? Mit dem Schema beim Lesen spielt es keine Rolle. Sie entscheiden, was das Schema ist, wenn Sie die Daten analysieren, nicht wenn Sie die Daten schreiben. Dieses Beispiel ist ein bisschen lächerlich, da Sie wahrscheinlich nie auf diesen Fall stoßen werden, aber es bringt den Punkt hoffentlich durcheinander.
Mit dem Schema beim Lesen laden Sie einfach Ihre Daten in den Datenspeicher und überlegen, wie Sie später analysieren und interpretieren. Im Kern dieser Erklärung bedeutet schema on read , dass Sie zuerst Ihre Daten schreiben und herausfinden, was es später ist. Schema on write bedeutet, herauszufinden, was Ihre Daten zuerst sind, und schreiben Sie danach.
Hier gibt es einen Kompromiss. Einige davon sind subjektiv und meine eigene Meinung.
Vorteile von Schema beim Schreiben :
Nachteile von Schema beim Schreiben :
Vorteile von Schema auf lesen :
Nachteile von Schema beim Lesen :