Django-Entwurfsmuster für Webanalyse-Bildschirme, deren Berechnung sehr lange dauert

Question

Django-Entwurfsmuster für Webanalyse-Bildschirme, deren Berechnung sehr lange dauert

8

Ich habe einen "analytics dashboard" -Bildschirm, der für meine django-Web-Anwendungen-Benutzer sichtbar ist und dessen Berechnung sehr lange dauert. Es ist einer dieser Bildschirme, der jede einzelne Transaktion in der Datenbank für einen Benutzer durchläuft und ihnen Messwerte gibt.

Ich würde mir wünschen, dass dies eine Echtzeitoperation ist, aber die Berechnungszeiten können 20-30 Sekunden für einen aktiven Benutzer betragen (kein Paging erlaubt, sondern Durchschnittswerte für Transaktionen).

Die Lösung, die Ihnen in den Sinn kommt, ist, dies im Backend über einen Batch-Befehl manage.py zu berechnen und dann nur die zwischengespeicherten Werte für den Benutzer anzuzeigen. Gibt es ein Django-Entwurfsmuster, das diese Arten von Modellen / Displays erleichtern soll?

python django batch-file

MikeN 31.07.2011, 02:05

quelle

4 Antworten

3

Die einfachste und IMO-richtige Lösung für solche Szenarien besteht darin, alles im Voraus zu berechnen, wenn die Dinge aktualisiert werden. Wenn der Benutzer das Dashboard sieht, berechnet er nichts, sondern zeigt nur bereits berechnete Werte an.

Es kann verschiedene Wege geben, dies zu tun, aber das generische Konzept besteht darin, eine Berechnungsfunktion im Hintergrund auszulösen, wenn sich etwas ändert, von dem die Berechnung abhängt.

Um eine solche Berechnung im Hintergrund auszulösen, benutze ich normalerweise Sellerie , also nehmen wir an, dass der Benutzer ein Objekt foo in view view_foo hinzufügt, rufen wir an eine Sellerie-Aufgabe update_foo_count , die im Hintergrund ausgeführt wird und foo count aktualisiert, alternativ können Sie einen Sellerie-Timer haben, der die Anzahl alle 10 Minuten aktualisiert, indem überprüft wird, ob eine Neuberechnung durchgeführt werden muss verschiedene Orte, an denen Benutzer Daten aktualisiert.

Anurag Uniyal 31.07.2011 03:47

quelle

1

Sie müssen sich das Djangos Cache-Framework ansehen.

Dominik 31.07.2011 02:18

quelle

0

Wenn die Daten, die langsam zu berechnen sind, denormalisiert und gespeichert werden können, wenn Daten hinzugefügt werden, anstatt wenn sie angezeigt werden, dann könnten Sie an Django-Denorm .

Max Peterson 31.07.2011 10:45

quelle

Tags und Links python django batch-file

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Wie kann ich nach dem Drucken eines Textes zum Anfang meiner Textbox blättern?

score 14 · Accepted Answer

Was Sie suchen, ist eine Kombination aus Offline-Verarbeitung und Caching. Mit Offline meine ich, dass die Berechnungslogik außerhalb des Anfrage-Antwort-Zyklus stattfindet. Mit Caching meine ich, dass das Ergebnis Ihrer teuren Berechnung für X-Zeit ausreichend gültig ist, während der Sie es für die Anzeige nicht neu berechnen müssen. Dies ist ein sehr häufiges Muster.

Offline-Verarbeitung

Es gibt zwei weitverbreitete Arbeitsansätze, die außerhalb des Anfrage-Antwort-Zyklus stattfinden müssen:

Cron-Jobs (oft über einen benutzerdefinierten Verwaltungsbefehl einfacher gemacht)
Sellerie

Relativ gesehen ist Cron einfacher zu installieren und Sellerie ist leistungsfähiger / flexibler. Davon abgesehen genießt Sellery eine fantastische Dokumentation und eine umfassende Testsuite. Ich habe es in der Produktion für fast jedes Projekt verwendet, und obwohl es einige Anforderungen beinhaltet, ist es nicht wirklich ein Problem, es einzurichten.

Cron

Cron-Jobs sind die altehrwürdige Methode. Wenn Sie nur eine Logik ausführen und ein Ergebnis in der Datenbank speichern müssen, hat ein Cron-Job keine Abhängigkeiten. Die einzigen frechen Bits mit Cron-Jobs sind, dass Ihr Code im Kontext Ihres django-Projekts ausgeführt wird - das heißt, Ihr Code muss Ihre settings.py korrekt laden, um Ihre Datenbank und Ihre Apps zu kennen. Für Uneingeweihte kann dies zu einer gewissen Verschlimmerung der Wahr- nehmung der richtigen PYTHONPATH und so.

führen

Wenn Sie die Cron-Route verwenden, empfiehlt es sich, einen benutzerdefinierten Verwaltungsbefehl zu schreiben. Du wirst es leicht haben, deinen Befehl vom Terminal aus zu testen (und Tests zu schreiben), und du musst keinen speziellen Hoopla am oberen Rand deines Verwaltungsbefehls ausführen, um eine richtige Django-Umgebung einzurichten. In der Produktion führen Sie einfach path/to/manage.py yourcommand aus. Ich bin mir nicht sicher, ob dieser Ansatz ohne die Unterstützung von virtualenv funktioniert, die Sie eigentlich trotzdem verwenden sollten. p>

Ein weiterer Aspekt, der bei Cronjobs berücksichtigt werden sollte: Wenn Ihre Logik eine gewisse Zeit benötigt, um ausgeführt zu werden, ignoriert Cron die Sache. Eine nette Möglichkeit, deinen Server zu töten, ist, jede Stunde einen zweistündigen Cronjob zu starten. Sie können Ihren eigenen Sperrmechanismus aktivieren, um dies zu verhindern. Seien Sie sich dessen jedoch bewusst - was als kurzer Cronjob beginnt, bleibt möglicherweise nicht so, wenn Ihre Daten wachsen oder wenn Ihr RDBMS sich schlecht verhält, etc usw.

In Ihrem Fall klingt es so, als wäre Cron weniger anwendbar, weil Sie die Graphen für jeden Benutzer so oft berechnen müssen, ohne zu berücksichtigen, wer das System tatsächlich benutzt. Hier kann Sellerie helfen.

Sellerie

... sind die Knie der Biene. Normalerweise werden Leute von der "Standard" -Anforderung eines AMQP-Brokers erschreckt. Es ist nicht schrecklich lästig RabbitMQ einzurichten, aber es erfordert ein wenig außerhalb der komfortablen Welt von Python. Für viele Aufgaben verwende ich nur redis als meinen Aufgabenspeicher für Sellerie. Die Einstellungen sind unkompliziert :

%Vor%

Voilá, keine Notwendigkeit für einen AMQP-Broker.

Sellerie bietet eine Fülle von Vorteilen gegenüber einfachen Cron-Jobs. Wie cron können Sie regelmäßige Aufgaben einplanen, aber Sie können auch Aufgaben als Reaktion auslösen zu anderen Stimuli, ohne den Anfrage / Antwort-Zyklus zu verzögern.

Wenn Sie das Diagramm nicht jedes Mal für jeden aktiven Benutzer berechnen möchten, müssen Sie es bei Bedarf generieren. Ich gehe davon aus, dass die Abfrage nach den neuesten verfügbaren Durchschnittswerten billig ist, die Berechnung neuer Durchschnittswerte teuer ist und Sie die tatsächlichen Diagramme clientseitig mit etwas wie flot . Hier ist ein Beispielfluss:

Der Benutzer fordert eine Seite an, die eine Durchschnittstabelle enthält.
Cache prüfen - Gibt es ein gespeichertes, nicht explodiertes Abfrageset, das Durchschnittswerte für diesen Benutzer enthält?
- Wenn ja, verwenden Sie das.
- Wenn nicht, feuern Sie eine Sellerie-Aufgabe ab, um sie neu zu berechnen, requery und das Ergebnis zwischenzuspeichern. Da die Abfrage vorhandener Daten billig ist, führen Sie die Abfrage aus, wenn Sie dem Benutzer in der Zwischenzeit veraltete Daten anzeigen möchten.
Wenn das Diagramm veraltet ist. Geben Sie optional an, dass das Diagramm veraltet ist, oder machen Sie etwas Ajax-Fleiß, um Django regelmäßig zu pingen und fragen Sie, ob das aktualisierte Diagramm fertig ist.

Sie können dies mit einer periodischen Aufgabe kombinieren, um das Diagramm jede Stunde für Benutzer mit einer aktiven Sitzung neu zu berechnen, um zu verhindern, dass wirklich veraltete Diagramme angezeigt werden. Dies ist nicht die einzige Möglichkeit, die Katze zu häuten, aber sie bietet Ihnen alle Kontrolle, die Sie benötigen, um Frische zu gewährleisten, während die CPU-Last der Berechnungsaufgabe gedrosselt wird. Das Beste von allem ist, dass die periodische Aufgabe und die Aufgabe "auf Anforderung" dieselbe Logik haben - Sie definieren die Aufgabe einmal und rufen sie von beiden Stellen aus für zusätzliche DRYness auf.

Caching

Die Django-Cache-Framework bietet Ihnen alle Hooks, die Sie benötigen, um beliebig lange zwischenspeichern zu können, da Sie die meisten Produktionsseiten auf memcached als ihr Cache-Backend, habe ich in letzter Zeit begonnen, redis mit dem django-redis-cache Backend statt, aber ich bin mir nicht sicher, ob ich es für eine große Produktions-Site noch traue.

Hier ist ein Code, der die Verwendung des Low-Level-Cachings anzeigt API , um den oben beschriebenen Workflow zu erreichen:

%Vor%

Bearbeiten: Beachten Sie, dass durch das Beilegen eines Abfrage-Sets das gesamte Abfrage-Set in den Speicher geladen wird. Wenn Sie eine Menge Daten mit Ihrem durchschnittlichen Abfrage-Set hochziehen, könnte dies suboptimal sein. Das Testen mit realen Daten wäre auf jeden Fall sinnvoll.