Ich suche eine Java-Bibliothek oder etwas, um die italienischen Wortketten zu stempeln.
Das Ziel ist es, italienische Wörter zu vergleichen. In diesem Moment werden Wörter wie "Attacco", "Attacchi", "Attaccare" usw. als unterschiedlich angesehen, stattdessen möchte ich einen echten Vergleich liefern.
Ich habe sowas wie Lucene, snowball.tartarus.org usw. gefunden. Gibt es noch etwas anderes, oder wie kann ich sie in Java verwenden?
Danke für die Antworten.
Laden Snowball für Java hier .
Es enthält eine Klasse namens org.tartarus.snowball.ext.italianStemmer
, die SnowballStemmer
erweitert.
Um SnowballStemmer
zu verwenden, sehen Sie sich bitte den folgenden Testcode für das Verb attaccare
present an:
Ausgabe:
%Vor% Für ein anderes Anwendungsbeispiel siehe TestApp.java
in der gleichen tgz-Datei.
Lucene, das in Java geschrieben ist, verwendet Snowball zum Stemmen, zum Beispiel als Filter in SnowballFilter .