Unstrukturierter Text in strukturierte Daten

8

Ich suche nach Referenzen (Tutorials, Bücher, akademische Literatur) bezüglich der Strukturierung von unstrukturiertem Text in ähnlicher Weise wie der Google Kalender Quick Add Button.

Ich verstehe, dass dies unter die NLP-Kategorie fallen könnte, aber ich interessiere mich nur für den Prozess von etwas wie "Levi Jeans Größe 32 A0b293"

bis: Marke: Levi, Größe: 32, Kategorie: Jeans, Code: A0b293

Ich denke, es wäre eine Kombination aus lexikalischen Parsing- und maschinellen Lerntechniken.

Ich bin eher sprachunabhängig, würde aber Pushed bevorzugen, Python, Matlab oder C ++ Referenzen

Danke

    
zenna 01.07.2010, 23:48
quelle

4 Antworten

7

Sie müssen mehr Informationen über die Quelle des Textes (das Web? Benutzereingabe?), die Domain (ist es nur Kleidung?), die mögliche Formatierung und das Vokabular ...

geben

Unter der Annahme eines Worst-Case-Szenarios müssen Sie mit dem Erlernen von NLP beginnen. Ein sehr gutes kostenloses Buch ist die Dokumentation von NLTK: Ссылка . Es ist auch eine sehr gute Einführung in Python und die SW ist kostenlos (für verschiedene Verwendungszwecke). Sei gewarnt: NLP ist schwer. Es funktioniert nicht immer. Es macht manchmal keinen Spaß. Der Stand der Technik ist nicht in der Nähe, wo Sie es sich vorstellen.

Nehmen wir ein besseres Szenario an (Ihr Text ist halbstrukturiert) - ein gutes kostenloses Werkzeug ist pyparsing . Es gibt ein Buch, viele Beispiele und der daraus resultierende Code ist äußerst attraktiv.

Ich hoffe, das hilft ...

    
Tal Weiss 02.07.2010 01:16
quelle
1

Sieh dir vielleicht "Kollektive Intelligenz" von Toby Segaran an. Ich erinnere mich, dass ich mich in einem Kapitel mit den Grundlagen beschäftigt habe.

    
leancz 02.07.2010 14:27
quelle
1

Nach einigen Nachforschungen habe ich festgestellt, dass dieses Problem allgemein als Informationsextraktion bezeichnet wird und einige Papiere zusammengetragen und in einer Mendeley-Sammlung gespeichert hat

Ссылка

Auch wie Tai Weiss bemerkte, ist NLTK für python ein guter Ausgangspunkt und das Kapitel des Buches, befasst sich speziell mit der Informationsextraktion

    
zenna 04.07.2010 23:09
quelle
0

Wenn Sie nur für Fälle wie das von Ihnen zitierte Beispiel arbeiten, sollten Sie eine manuelle Regelregel verwenden, die 100% vorhersehbar ist und 90% der Fälle abdeckt, mit denen die Produktion konfrontiert sein könnte.

Sie könnten aufzählbare Listen aller möglichen Marken und Kategorien aufführen und erkennen, welches in einer Eingabezeichenfolge steht, da in diesen beiden Listen normalerweise nur sehr wenig Schnittmenge vorhanden ist.

Die anderen beiden könnten mit regulären Ausdrücken leicht erkannt und extrahiert werden. (1-3 Ziffern sind immer Größen, etc.)

Ihre Problemdomäne scheint nicht groß genug zu sein, um einen stärker belastenden Ansatz wie statistisches Lernen zu rechtfertigen.

    
Aditya Mukherji 05.07.2010 04:34
quelle

Tags und Links