Wie kann die Erkennung von Sätzen in Sphinx verbessert werden?

8

Es ist möglich, Wörter in einem Satz mit Sphinx zu suchen. Zum Beispiel haben wir folgenden Text:

  

Вася молодец, съел огурец, т.к. проголодался. Такие дела.

Wenn ich suche

%Vor%

Ich finde diesen Text. Wenn ich suche

%Vor%

Ich kann diesen Text nicht finden, weil der Punkt aus dem Ausdruck т.к. als Ende des Satzes angesehen wird.

Und wie ich sehe, ist die Menge der Trennzeichen in Sphinx-Quellen fest programmiert .

Meine Frage ist, wie man den Satz erkennen kann? Besser ist es für mich, Yandex Tomita-Parser oder eine andere nlp-Bibliothek mit intelligenter Erkennung von Sätzen zu verwenden.

    
mnv 12.09.2016, 08:57
quelle

1 Antwort

1

Teilen Sie Text in Sätze mit Yandex Tomita Parser. Wir erhalten den Text, der nach "\ n" aufgeteilt ist.

Alle löschen ".", "!", "?" Letzten von jedem Satz verlassen.

Erstellen Sie den Sphinx-Index mit diesen vorverarbeiteten Daten.

    
mnv 20.09.2016, 04:06
quelle