Welche Zeichencodierung ist c3 82 c2 bf?

8

Ich habe eine Quelle von Textdaten, die die Bytefolge c3 82 c2 bf enthält. Im Kontext denke ich, dass es ein großes griechisches Phi-Symbol (Φ) sein soll.

Jedenfalls kann ich nicht herausfinden, welche Kodierung verwendet wird; Ich schreibe ein Python-Skript, um diese Daten in eine Datenbank zu verarbeiten, die Unicode erwartet, und es löst eine Ausnahme für diese bestimmte Datensequenz aus.

Irgendwelche Vorschläge, wie man damit umgehen soll?

    
Jason S 18.07.2012, 16:45
quelle

3 Antworten

17

Interpretiert als UTF-8, c3 82 ist "" U + 00C2 und c2 bf ist "¿" U + 00BF, was nicht viel Sinn macht, aber es ist technisch gültig UTF-8 Daten, so sollte es nicht sein als Datenfehler auf Zeichenebene gemeldet. Als UTF-16 interpretiert, sind es Hangul-Silben und möglicherweise ein CJK-Ideograph, abhängig von Endianess, aber immer noch formal gültigen Daten, obwohl höchstwahrscheinlich nicht gemeint ist.

Das klingt nach dem Ergebnis doppelter Conversion, aber es ist schwierig, fundierte Vermutungen zu machen. Wenn es für Φ steht, dann ist das UTF-16-Formular 03 A6 oder A6 03 und das UTF-8-Formular ist CE A6, die den tatsächlichen Daten nicht wirklich ähneln. Informationen über die Herkunft der Daten könnten helfen zu erraten, welche Transkodierungen möglicherweise stattgefunden haben.

    
Jukka K. Korpela 18.07.2012, 17:13
quelle
10

Es ist wahrscheinlich eine doppelte Konvertierung von Ñ character.

Ñ Zeichen in UTF-8 ist: 0xc391 .

Wenn Sie versuchen, von LATIN-1 in UTF-8 das Zeichen Ñ zu konvertieren, das bereits in UTF-8 codiert ist , erhalten Sie: 0xc382c2bf .

Warum?

  1. 0xc382 ist UTF-8 Übersetzung von LATIN-1 0xc3 character à (A mit Tilde)
  2. 0xc2bf ist ¿ Zeichen, das Sie erhalten, wenn Sie ein Zeichen nicht von LATIN-1 konvertieren können ( 0x91 ist ein ungültiges Zeichen in LATIN-1
Pablo Santa Cruz 08.02.2013 14:56
quelle
2

FWIW, am Ende habe ich c3 82 c2 bf von   . Ich habe mich nicht mit den Transformationen beschäftigt, weil ich diesen Teil des Codes einfach wegwerfen konnte. Es genügt zu sagen, dass   in einer HTML-Email-Vorlage war, die von einem WordPress (php) -Plugin verarbeitet wurde.

    
Kevin 16.09.2014 14:47
quelle

Tags und Links