Ich verarbeite SPSS-Daten aus einem Fragebogen, der in M $ Word entstanden sein muss. Word ändert Bindestriche automatisch in lange Bindestriche und wird in Zeichen konvertiert, die nicht korrekt angezeigt werden, d. H. "-" wird zu "ú".
Meine Frage: Was entspricht utf8ToInt () im WINDOWS-1252-Zeichensatz?
%Vor%Wenn ich dies mit meinen eigenen Daten mache, erhalte ich einen Fehler:
%Vor%Der Inhalt von x ist jedoch perfekt in Grep- und Gsub-Ausdrücken verwendbar.
%Vor%Nach einigem Kopfkratzen, vielen Lesehilfedateien und Trial-and-Error habe ich zwei kleine Funktionen erstellt, die das machen, was ich brauche. Diese Funktionen arbeiten, indem sie ihre Eingabe in UTF-8 konvertieren und dann den Ganzzahlvektor für den UTF-8-codierten Zeichenvektor zurückgeben und umgekehrt.
%Vor%Einige Beispiele:
%Vor%Ich verwende eine Variation von Andries Code:
x
, damit ich es auf einen Vektor / eine Spalte von Zeichen anwenden kann Dies ist nützlich, wenn Sie zum Beispiel latin1 / cp1252-Zeichen einem ganzzahligen Bereich zuordnen wollen, der meine Anwendung ist ("kompakteres Dateiformat", sagen sie). Dies ist offensichtlich nicht angebracht, wenn Sie die ganze Zahl irgendwann wieder in ein Zeichen konvertieren müssen.
%Vor%Tags und Links r