Italienisch stemming Bibliothek in Java

8

Ich suche eine Java-Bibliothek oder etwas, um die italienischen Wortketten zu stempeln.

Das Ziel ist es, italienische Wörter zu vergleichen. In diesem Moment werden Wörter wie "Attacco", "Attacchi", "Attaccare" usw. als unterschiedlich angesehen, stattdessen möchte ich einen echten Vergleich liefern.

Ich habe sowas wie Lucene, snowball.tartarus.org usw. gefunden. Gibt es noch etwas anderes, oder wie kann ich sie in Java verwenden?

Danke für die Antworten.

    
Schiawo 14.11.2012, 14:45
quelle

1 Antwort

8

Laden Snowball für Java hier .

Es enthält eine Klasse namens org.tartarus.snowball.ext.italianStemmer , die SnowballStemmer erweitert.

Um SnowballStemmer zu verwenden, sehen Sie sich bitte den folgenden Testcode für das Verb attaccare present an:

%Vor%

Ausgabe:

%Vor%

Für ein anderes Anwendungsbeispiel siehe TestApp.java in der gleichen tgz-Datei.

Lucene, das in Java geschrieben ist, verwendet Snowball zum Stemmen, zum Beispiel als Filter in SnowballFilter .

    
Tony Rad 14.11.2012, 15:24
quelle

Tags und Links