Ich habe einige Algorithmen für Clustering, Datenabstraktion usw. in python nltk entwickelt. Nun, das Problem ist, ich bin dabei, es groß zu machen, bevor ich VCs präsentiere. NLTK hat seine eigenen Vorteile wie schnelle Entwicklung etc. Aber das machte für mich Sinn, als ich am Anfang entschied. Jetzt bin ich reif genug und finde einige Einschränkungen, wie mangelnde Skalierbarkeit. Habe etwas über Mahout geforscht, aber das ist auch für Cluster / Kategorisierung und Kollokation. Offenes NLP ist eine Option, aber ich bin nicht sicher, wie lange ich damit gehen kann. Alles gut für High-Scale-nlp?
Bitte beachten Sie - diese Frage bezieht sich nicht auf meine ältere Frage - Wie kann ich die Leistung von NLTK verbessern? Alternativen? . Ich habe NLTK bereits in einer Produktions-Webanwendung gelesen .
NLTK ist zwar eine gute Lernplattform, aber nicht dafür gedacht, Millionen von Kunden zuverlässig zu bedienen.
Sie können Ihre Skalierbarkeitsprobleme auf zwei verschiedene Arten angehen:
Das bedeutet, dass Sie Ihre Algorithmen überdenken müssen. Erfordert einen guten mathematischen Hintergrund und ein gutes Verständnis der Algorithmen. Vielleicht würden Sie sogar Algorithmen ersetzen, weil die Ausführungszeit weniger mit der Arbeitsmenge zusammenhängt.
Im Hinblick auf die Umsetzung Ihrer Idee kann dies die schwierigste (und vielleicht sogar unmöglichste) Lösung sein, abhängig von Ihren Fähigkeiten. Für die Bereitstellung und künftige Vorteile ist dies bei weitem die einfachste Lösung.
Sie können verschiedene Dinge mit Skalierbarkeit meinen:
Bei der Skalierbarkeit gibt es unterschiedliche Größenordnungen: Möchten Sie 10-fach, 100-fach, 1000-fach skalieren? ...
Es gibt verschiedene Methoden zur Überwindung von Skalierbarkeitsproblemen:
Unabhängig von der Art der Skalierbarkeit und unabhängig von der Methode, mit der Sie sie überwinden, führen Sie einen Auslastungstest durch, um zu sehen, was Sie damit umgehen können. Da Sie sich Ihre gesamte Hardware nicht sofort leisten können, gibt es verschiedene Möglichkeiten, einen Belastungstest für eine skalierte Infrastruktur durchzuführen:
Viel Glück!