unicode

Unicode ist ein Standard für die Kodierung, Darstellung und Handhabung von Text mit der Absicht, alle Zeichen zu unterstützen, die für den geschriebenen Text erforderlich sind und alle Schriftsysteme, technischen Symbole und Interpunktion enthalten.
2
Antworten

HTML-Codierung und lxml-Analyse

Ich versuche, endlich einige Probleme mit der Codierung zu lösen, die beim Versuch, HTML mit lxml zu scrappen, auftauchen. Hier sind drei Beispiel-HTML-Dokumente, denen ich begegnet bin: 1. %Vor% 2. %Vor% 3. %Vor% Mein grundlegend...
08.03.2013, 19:50
2
Antworten

Extrahiere den ersten Buchstaben einer UTF-8-Zeichenfolge mit Lua

Gibt es eine Möglichkeit, den ersten Buchstaben einer UTF-8-codierten Zeichenfolge mit Lua zu extrahieren? Lua unterstützt Unicode nicht korrekt, daher gibt string.sub("ÆØÅ", 2, 2) "?" anstelle von "Ø" zurück. Gibt es einen relati...
05.11.2012, 15:22