Wie kann die Erkennung von Sätzen in Sphinx verbessert werden?

Question

Wie kann die Erkennung von Sätzen in Sphinx verbessert werden?

8

Es ist möglich, Wörter in einem Satz mit Sphinx zu suchen. Zum Beispiel haben wir folgenden Text:

Вася молодец, съел огурец, т.к. проголодался. Такие дела.

Wenn ich suche

%Vor%

Ich finde diesen Text. Wenn ich suche

%Vor%

Ich kann diesen Text nicht finden, weil der Punkt aus dem Ausdruck т.к. als Ende des Satzes angesehen wird.

Und wie ich sehe, ist die Menge der Trennzeichen in Sphinx-Quellen fest programmiert .

Meine Frage ist, wie man den Satz erkennen kann? Besser ist es für mich, Yandex Tomita-Parser oder eine andere nlp-Bibliothek mit intelligenter Erkennung von Sätzen zu verwenden.

full-text-search sphinx full-text-indexing

mnv 12.09.2016, 08:57

quelle

1 Antwort

Tags und Links full-text-search sphinx full-text-indexing

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Die rechte Seite von 'instanceof' ist nicht aufrufbar

score 1 · Accepted Answer

Teilen Sie Text in Sätze mit Yandex Tomita Parser. Wir erhalten den Text, der nach "\ n" aufgeteilt ist.

Alle löschen ".", "!", "?" Letzten von jedem Satz verlassen.

Erstellen Sie den Sphinx-Index mit diesen vorverarbeiteten Daten.