nlp, Seitenzahl 9

Natural Language Processing (NLP) ist ein Teilbereich der künstlichen Intelligenz, bei dem nützliche Informationen aus natürlichsprachlichen Daten transformiert oder extrahiert werden. Methoden umfassen maschinelles Lernen und regelbasierte Ansätze.

Antwort

Wie kann ich mit Python NLTK Kollokationen zwischen einzelnen Zeichen identifizieren?

Ich möchte NLTK verwenden, um Kollokationen zwischen bestimmten Kanji-Zeichen in Japanisch und Hanzi-Zeichen auf Chinesisch zu identifizieren. Wie bei Wortkollokationen sind einige Sequenzen chinesischer Zeichen weitaus wahrscheinlicher als ande...

23.04.2017, 20:28

Antworten

QA-Generierung für Untersätze - NLP

Mein Datensatz ist folgendermaßen aufgebaut: Produkt1 - Satz1 Produkt2 - Satz2 Produkt3 - Satz3 . . usw. Die Sätze sehen so aus: Product1 - "Wir empfehlen Ihnen, dieses stilvolle Stück mit goldfarbenen Ohrringen, Churidar Leg...

11.01.2017, 06:52

Antworten

Interpretieren negativer Word2Vec-Ähnlichkeit von Gensim

z. Wir trainieren ein Word2vec-Modell mit gensim : %Vor% Und wenn wir die Ähnlichkeit zwischen Wörtern abfragen, finden wir negative Ähnlichkeitswerte: %Vor% Wie interpretieren wir die negativen Bewertungen? Wenn es eine Kosinusäh...

22.02.2017, 03:00

Antworten

Wie werden Brocken aus BIO-Chunked-Sätzen extrahiert? - Python

Geben Sie einen Eingabesatz ein, der BIO-Chunk-Tags : [('Was', 'B-NP'), ('ist', 'B-VP'), ('das', 'B-NP'), ('Fluggeschwindigkeit', "I-NP", ("von", "B-PP"), ("an", "B-NP"), ("unladen", "I-NP"), ('schlucken', 'I-NP'), ('?', 'O')] Ich...

01.09.2015, 13:45

Antworten

Max. Bearbeitungsdistanz und Vorschlag basierend auf der Worthäufigkeit

Ich brauche eine Rechtschreibprüfung mit der folgenden Spezifikation: Sehr skalierbar. So können Sie eine maximale Bearbeitungsentfernung für die vorgeschlagenen Wörter festlegen. Um einen Vorschlag basierend auf den bereitgestellten Wor...

02.05.2011, 13:51

Antworten

Verarbeiten von fehlerhaften Textdaten mit maschinellem Lernen oder NLP

Ich versuche, Daten aus einigen großen Textdateien zu extrahieren, die Einträge über Personen enthalten. Das Problem ist jedoch, dass ich nicht kontrollieren kann, wie die Daten zu mir kommen. Es ist normalerweise in einem Format wie folgt:...

25.01.2012, 21:49

Antworten

Geschätzte phonemische Ähnlichkeit zwischen zwei Wörtern

Ich arbeite daran, Rhymes in Python zu finden, indem ich das Aussprachewörterbuch der Carnegie Mellon University verwende, und würde gerne wissen: Wie kann ich die phonemische Ähnlichkeit zwischen zwei Wörtern schätzen? Mit anderen Worten, gibt...

20.10.2014, 21:02

Antworten

Allgemeine Rahmenbedingungen für die Erstellung von Trainingsdaten?

Als Student der Computerlinguistik mache ich häufig maschinelle Lernexperimente, bei denen ich Trainingsdaten aus allen möglichen Ressourcen wie rohen oder annotierten Textkorpora oder syntaktischen Baumbanken erstellen muss. Für jede neue Aufga...

14.01.2010, 17:11

Antwort

NLTK - Multi-Label-Klassifizierung

Ich benutze NLTK, um Dokumente zu klassifizieren - mit jeweils 1 Etikett, wobei es 10 Arten von Dokumenten gibt. Für die Textextraktion putze ich Text (Satzzeichen entfernen, HTML-Tag entfernen, lowcasing), entfernen nltk.corpus.stopwords, so...

09.05.2014, 18:39

Antworten

Indizierung und Suche über Annotationsebenen auf Word-Ebene in Lucene

Ich habe einen Datensatz mit mehreren Annotationsschichten über dem zugrunde liegenden Text, z. B. part-of-tags , Chunks von einem flachen Parser , Name entities und andere aus verschiedenen Verarbeitung natürlicher Sprache (NLP) Werkzeuge....

21.05.2010, 14:37