Zeitliche Extraktion (d. h. Extrahieren von Datum / Uhrzeit-Entitäten aus dem freien Text) - Wie?

9

Hat jemand eine einfache, aber effektive Möglichkeit gefunden, Datumsreferenzen aus dem Text zu extrahieren? Ich habe ziemlich lange nach temporalen Extraktionswerkzeugen gesucht, aber da draußen gibt es nicht viel. Es gibt ein paar White Papers, aber es scheint in eine Untermenge des gesamten semantischen Web-Dings zu fallen, aber nicht sehr beachtet.

Ich suche nur nach etwas, das 80% effektiv ist. Es gibt keine Notwendigkeit, Dinge wie "der Monat nach Jan 2009" zu erfassen, aber grundlegende gemeinsame Daten Entitäten wäre nett.

Ich bin offen für alle Vorschläge, auch für ausgefallene Regex-Ausdrücke.

Feuer weg!

(und danke - Henry)

    
henry74 16.07.2009, 00:23
quelle

3 Antworten

3
  1. Wenn die temporalen Zielausdrücke in Ihren Daten nur ein begrenztes Format haben, verwenden Sie regulären Ausdruck und iterativen Ansatz, um Ihr System zu verfeinern

  2. Andernfalls verwenden Sie das Stanford NLP-Toolkit, SUTime , das möglicherweise ein Over-Kill ist, aber definitiv erfüllen Sie Ihre Anforderungen

JXITC 14.08.2013 13:27
quelle
1

Eine Möglichkeit, wie ich das gemacht habe, ist, nach etwas zu suchen, das aus vier Zahlen besteht, und es in eine Zahl umzuwandeln. Wenn die Zahl in den Bereich von Jahren fällt, die Sie interessieren, haben Sie wahrscheinlich ein Jahr, das Sie verwenden können. Wenn Sie an übereinstimmenden Monaten und Tagen interessiert sind, können Sie benachbarte Wörter überprüfen, um zu sehen, ob sie ein Monatsname oder eine Zahl zwischen 1 und 31 sind. Ich bin sicher, dass dies Ihre 80% Anforderung erfüllen würde.

Regex für Jahre: [0-9] {4} - Sie müssen in eine Zahl umwandeln und sehen, ob sie in dem Bereich liegt, den Sie für gültig halten.

Regex für Monate: Januar | Januar | Februar | Februar ... usw. für jeden Monat

Regex für Tage des Monats: [0-9] {1,2} - Sie müssten in eine Zahl umwandeln und sehen, ob es 1-31 ist

    
jjxtra 16.07.2009 01:01
quelle
-3

Ich zeichne ein leeres Feld, um zu finden, was es zu füttern ist, aber Diese Bibliothek analysiert eine Vielzahl von Daten und kann als "Ist das ein echtes Datum" verwendet werden. (Vollständige Offenlegung, ich bin der Autor dieser lib)

    
BCS 16.07.2009 17:35
quelle