Zeichenkodierung von Microsoft Word DOC- und DOCX-Dateien?

8

Ich bin nicht vertraut mit der Codierung, die Microsoft Word verwendet. Wenn jemand eine .doc- oder .docx-Datei aus Word speichern möchte, welche Standardcodierung wird verwendet?

Ich vermute, dass es nicht UTF-8 ist, da der resultierende Text (eingefügt in eine UTF-8-kodierte Textdatei) bestimmte Interpunktionszeichen (z. B. Anführungszeichen) nicht berücksichtigt.

Ein öffnendes Word-Smart-Zitat zum Beispiel, wenn es in eine UTF-8-Textdatei eingefügt wird, führt zu einem ì -Symbol. Wenn Word tatsächlich in UTF-8 codiert, wie versucht Word dann, das tatsächliche UTF-8 zu rendern Charakter ?

Bearbeiten

Nach ein wenig Graben kann ich sehen, dass eine Microsoft Word DOCX-Datei tatsächlich ein komprimiertes Format ist. Das Entpacken führt dazu, dass eine Anzahl von .xml-Dateien entpackt wird.

Allerdings ist die Unfähigkeit, mit einer UTF-8-codierten Textdatei diese "intelligenten" Zitate zu berücksichtigen, immer noch verblüffend. Jede aufschlussreiche Information wäre hilfreich.

    
shennan 27.01.2015, 13:46
quelle

0 Antworten