Kannada-Wort in Silbencluster aufteilen

8

Wir fragen uns, ob es eine Methode gibt, um ein Kannada-Wort aufzuteilen, um die Silbencluster mit JavaScript zu erhalten.

Ich möchte zum Beispiel das Wort ಕನ್ನಡ in die Silbencluster ["ಕ", "ನ್ನ", "ಡ"] aufteilen. Aber wenn ich es mit split teile, ist das tatsächlich erhaltene Array ["ಕ", "ನ", "್", "ನ", "ಡ"]

Beispielgeige

    
mpsbhat 01.06.2017, 12:23
quelle

2 Antworten

3

Ich kann nicht sagen, dass dies eine vollständige Lösung ist. Aber es funktioniert in gewissem Maße mit einem grundlegenden Verständnis dafür, wie Wörter gebildet werden:

%Vor%

Wie die Kommentare im Code sagen, fügen wir Zeichen immer an das vorherige Zeichen an, solange sie nicht swara oder vyanjana oder vorheriges Zeichen ein virama sind. Sie müssen möglicherweise mit verschiedenen Wörtern arbeiten, um sicherzustellen, dass Sie verschiedene Fälle abdecken. Dieser spezielle Fall deckt nicht die Zahlen ab.

Für Zeichencodes können Sie auf diesen Link verweisen: Ссылка

    
bugs_cena 01.06.2017, 13:23
quelle
2

Erwägen Sie, die Eigenschaft "inSC" zu verwenden, die mit Unicode-Zeichen verknüpft ist - Sie können dies aus einer Datenbank abrufen, die auf das indische Silbenzeichen hinweist. (Sie können auch die "Kategorie" konsultieren, um zu sehen, ob es sich um eine "Nicht-Abstandsmarke" handelt). Zum Beispiel hat "್" den Typ "Virama" (siehe Ссылка ). Um ein anderes Beispiel zu nehmen, "ಿ" (KANNADA VOWEL SIGN I) hat eine InSC von "Vowel_Dependent" (und befindet sich auch in der Kategorie "Nicht-Abstandsmarkierung"). Sie könnten dann möglicherweise erkennen, welche einzelnen Grapheme mit anderen kombiniert werden müssen, und komplette Zeichen wie folgt zusammenstellen:

%Vor%

Auch wenn Sie das schaffen können, müssen Sie mehr tun. Es ist mir unklar, wie Sie erkennen würden, dass die drei Zeichen "ನ", "" ್ "und" ನ "zu kombinieren sind, anstatt als die beiden Zeichen" ನ್ "und" ನ "behandelt zu werden. Das Problem ist, dass In diesem Fall wird die Virama verwendet, um einen Konsonanten-Cluster anzuzeigen, also müssten Sie das XVX-Muster identifizieren (wobei V virama ist) und das als ein kombiniertes Zeichen behandeln. Es gibt wahrscheinlich viele, viele andere Sonderfälle.

Dies könnte von Interesse sein: Ссылка . Es geht darum, "Silbencluster" zu finden, in diesem speziellen Fall als Auftakt für die grafische Darstellung der Charaktere. Sie können auch einen Blick auf Ссылка werfen.

    
user663031 01.06.2017 13:18
quelle

Tags und Links