So erstellen Sie eine Regex zum Analysieren arabischer Daten

9

Ich arbeite an einem Programm, das eine Reihe von Regexs ausführt, um zu versuchen, ein Datum innerhalb des DOM von einer Webseite zu finden. Zum Beispiel in www.engadget.com/2010/07/19 / windows-phone-7-in-depth-preview / , würde ich "19. Juli 2010" mit meiner Regex übereinstimmen. In verschiedenen Formaten und Sprachen lief alles gut, bis ich auf eine arabische Webseite kam. Als ein Beispiel betrachten Ссылка . Das Datum 18. Juli 2010 erscheint auf Arabisch oben auf dem Post, aber ich kann nicht herausfinden, wie man es anpasst. Hat jemand Erfahrung mit arabischen Dates? Wenn jemand ein Beispiel oder die Regex veröffentlichen könnte, die sie verwenden würden, um das arabische Datum zu finden, wäre das sehr hilfreich. Vielen Dank!

Aktualisierung:

Näher kommen:

%Vor%

Gibt mir

%Vor%

Warum erscheint das Spiel nicht in der richtigen Reihenfolge?

    
chsbellboy 19.07.2010, 20:19
quelle

1 Antwort

1

Wenn Sie sich den Binärcode Ihres kopierten Textes ansehen, können Sie sehen, dass der Satz tatsächlich von rechts nach links gelesen wird (also der erste Buchstabe auf der rechten Seite ist der erste in der Datei).
Es ändert den Text während des Renderns so zurück, dass es aussieht, als wäre es von rechts nach links geschrieben (Dies führt auch zu diesem merkwürdigen Auswahlverhalten).

Dafür müssen Sie von rechts nach links suchen.
Außerdem ist es wichtig zu beachten, dass Nummern nicht geschaltet werden.

Beispiel:

Wenn Sie "txet emos 20 yluJ 2016 srahc modnar" ,
lesen können Es wird als "random chars 2016 July 20 some text" in der Datei gespeichert.

    
Snow bunting 18.01.2016, 14:53
quelle

Tags und Links