Ich verwende pyquery, um eine Seite zu analysieren:
%Vor% aber was ich in content
bekomme, ist eine Unicode-Zeichenfolge mit utf-8-codiertem Inhalt:
Wie kann ich es in str
konvertieren, ohne den Inhalt zu verlieren?
um es klarzustellen:
Ich möchte conent == '\xe5\xb1\x82\xe5\x8f\xa0\xe6\xa0\xb7\xe5\xbc\x8f\xe8\xa1\xa8'
nicht conent == u'\xe5\xb1\x82\xe5\x8f\xa0\xe6\xa0\xb7\xe5\xbc\x8f\xe8\xa1\xa8'
Wenn Sie einen unicode
-Wert mit UTF-8 Bytes haben, kodieren Sie nach Latin-1, um die 'Bytes' zu erhalten:
weil die Unicode-Codepunkte U + 0000 bis U + 00FF alle eins-zu-eins mit der Latin-1-Codierung abbilden; Diese Codierung interpretiert Ihre Daten also als Literalbytes.
Für Ihr Beispiel gibt mir das:
%Vor%Tags und Links python utf-8 unicode python-2.x pyquery