Ich habe lucene-gosen gefunden, während ich nach meinen eigenen Zielen gesucht habe:
Ihr Beispiel sieht ziemlich anständig aus, aber ich denke, es ist eine Sache, die ausgiebig getestet werden muss. Ich mache mir auch Sorgen über ihre Politik der Rückwärtskompatibilität (oder besser: das Fehlen eines.)
Sie sollten sich wahrscheinlich die CJK Paket im Contrib-Bereich von Lucene. Es gibt einen Analysator und einen Tokenizer speziell für den Umgang mit Chinesisch, Japanisch und Koreanisch.
Tags und Links java lucene internationalization analyzer