Ich arbeite gerade an einem Projekt, wo es wirklich nützlich wäre, wenn ein bestimmtes Thema / eine Idee in einem Textteil erwähnt wird. Zum Beispiel, wenn der Text enthalten:
Vielleicht, wenn Sie mir ein wenig mehr darüber erzählen, wer Herr Jones ist, würde das helfen. Es wäre auch nützlich, wenn ich eine Beschreibung seines Aussehens oder besser noch eines Fotos hätte?
Es wäre toll zu erkennen, dass die Person um ein Foto von Mr Jones gebeten hat. Ich könnte einen wirklich naiven Ansatz wählen und einfach nach dem Wort "Foto" oder "Foto" suchen, aber das wäre natürlich nicht gut, wenn sie etwas schreiben würden wie:
Bitte senden Sie mir niemals ein Foto von Herrn Jones.
Weiß jemand, wo ich damit anfangen soll? Ist es überhaupt möglich?
Ich habe Dinge wie nltk untersucht, aber ich muss noch ein Beispiel dafür finden, dass jemand etwas Ähnliches tut und ich bin immer noch nicht ganz sicher, was diese Art von Analyse heißt. Jede Hilfe, die mich auf den Boden bringen kann, wäre großartig.
Danke!
Das Beste, was für Sie nützlich sein könnte, ist die automatische Stimmungsanalyse. Dies dient beispielsweise dazu, zu beurteilen, ob eine Kundenbewertung positiv oder negativ ist. Ich kann Dir keine direkten Hinweise auf verfügbare Werkzeuge geben, aber das ist es, wonach Du suchst.
Ich muss jedoch sagen, dass dies ein aktuelles heißes Thema in der Verarbeitung natürlicher Sprache ist und ich eine Reihe von Beiträgen auf Konferenzen gesehen habe. Es ist definitiv eine ziemlich komplexe Angelegenheit und wenn Sie bei Null beginnen, kann es eine Weile dauern, bis Sie die gewünschten Ergebnisse erhalten.
NLTK ist kein schlechtes Framework für das Parsen natürlicher Sprache, aber hüte dich davor, dass dies keine einfache Sache ist. So etwas zu tun ist wirklich Programmierung auf Forschungsebene.
Eine gute Sache, die es viel einfacher macht, ist, wenn Sie eine sehr begrenzte Domain haben - sagen Sie Ihre Anwendung konzentriert sich auf Informationen über berühmte Autoren, dann können Sie einige Komplexitäten der natürlichen Sprache wie bestimmte Arten von Mehrdeutigkeiten vermeiden.
Wo soll ich anfangen? Gute Frage. Ich kenne keine Anleitungen zu diesem Thema (und ich nehme an, Sie haben die Google-Option ausprobiert), aber ich würde mir vorstellen, dass iTunes U einen Kurs zu diesem Thema hätte. Wenn nicht, kann ich einen Link zu einem Kurs schreiben, den ich gemacht habe, der das Thema erwähnt und nicht ganz schrecklich war: Ссылка
Das Problem, dass Sie anpacken, ist sehr schwierig.
Ich würde damit beginnen, zuerst die Entitäten im Text zu identifizieren (Problem namens Named Entity Recognition, google es), und dann würde ich versuchen, Konzepte zu identifizieren.
Wenn Sie grob identifizieren möchten, worum es sich bei dem Text handelt, schlage ich vor, dass Sie zunächst WordNet und dann die Wörter und ihre Stellen in der Hierarchie verwenden, um die beteiligten Konzepte zu identifizieren. Wenn Sie ein System erstellen wollen, das echte Intelligenz zeigt, sollten Sie nach Ressourcen wie CYC (OpenCYC) suchen, mit denen Sie die Sätze in FOL-Sätze umwandeln können.
Diese Hardcore KI, Ansatz zur Lösung Ihres Problems. Für einfache Chat-Bot wäre es einfacher, sich auf einfache statistische Methoden zu verlassen.
viel Glück
Tags und Links artificial-intelligence nlp nltk text-mining