Wie kann ich die interne Codedarstellung eines WINDOWS-1252-Zeichens herausfinden?

8

Ich verarbeite SPSS-Daten aus einem Fragebogen, der in M ​​$ Word entstanden sein muss. Word ändert Bindestriche automatisch in lange Bindestriche und wird in Zeichen konvertiert, die nicht korrekt angezeigt werden, d. H. "-" wird zu "ú".

Meine Frage: Was entspricht utf8ToInt () im WINDOWS-1252-Zeichensatz?

%Vor%

Wenn ich dies mit meinen eigenen Daten mache, erhalte ich einen Fehler:

%Vor%

Der Inhalt von x ist jedoch perfekt in Grep- und Gsub-Ausdrücken verwendbar.

%Vor%     
Andrie 05.03.2011, 16:42
quelle

3 Antworten

5

Nach einigem Kopfkratzen, vielen Lesehilfedateien und Trial-and-Error habe ich zwei kleine Funktionen erstellt, die das machen, was ich brauche. Diese Funktionen arbeiten, indem sie ihre Eingabe in UTF-8 konvertieren und dann den Ganzzahlvektor für den UTF-8-codierten Zeichenvektor zurückgeben und umgekehrt.

%Vor%

Einige Beispiele:

%Vor%     
Andrie 12.03.2011, 11:37
quelle
5

Wenn Sie die Datei SPSS sav über read.spss form package fremder laden, können Sie den Datenrahmen einfach mit der korrekten Codierung importieren, indem Sie die Codierung wie folgt angeben:

%Vor%     
daroczig 05.03.2011 17:42
quelle
0

Ich verwende eine Variation von Andries Code:

  • Vektorisiert auf x , damit ich es auf einen Vektor / eine Spalte von Zeichen anwenden kann
  • Das Zeichen wird von zwei utf8-Zeichen (wie "\ u0098", das c (194, 152) ergibt) verarbeitet, indem einfach die letzte Ganzzahl zurückgegeben wird.

Dies ist nützlich, wenn Sie zum Beispiel latin1 / cp1252-Zeichen einem ganzzahligen Bereich zuordnen wollen, der meine Anwendung ist ("kompakteres Dateiformat", sagen sie). Dies ist offensichtlich nicht angebracht, wenn Sie die ganze Zahl irgendwann wieder in ein Zeichen konvertieren müssen.

%Vor%     
antoine-sac 06.06.2016 15:54
quelle

Tags und Links