Ich bin nicht vertraut mit der Codierung, die Microsoft Word verwendet. Wenn jemand eine .doc- oder .docx-Datei aus Word speichern möchte, welche Standardcodierung wird verwendet?
Ich vermute, dass es nicht UTF-8 ist, da der resultierende Text (eingefügt in eine UTF-8-kodierte Textdatei) bestimmte Interpunktionszeichen (z. B. Anführungszeichen) nicht berücksichtigt.
Ein öffnendes Word-Smart-Zitat zum Beispiel, wenn es in eine UTF-8-Textdatei eingefügt wird, führt zu einem ì
-Symbol. Wenn Word tatsächlich in UTF-8 codiert, wie versucht Word dann, das tatsächliche UTF-8 zu rendern Charakter ?
Bearbeiten
Nach ein wenig Graben kann ich sehen, dass eine Microsoft Word DOCX-Datei tatsächlich ein komprimiertes Format ist. Das Entpacken führt dazu, dass eine Anzahl von .xml-Dateien entpackt wird.
Allerdings ist die Unfähigkeit, mit einer UTF-8-codierten Textdatei diese "intelligenten" Zitate zu berücksichtigen, immer noch verblüffend. Jede aufschlussreiche Information wäre hilfreich.
Tags und Links character-encoding utf-8 ms-word