Exakt dieselben Textzeichenfolgen stimmen nicht überein

Question

Exakt dieselben Textzeichenfolgen stimmen nicht überein

8

Ich habe zwei Spalten in einem Dataframe title und store , die Textzeichenfolgen enthalten, mit denen ich den Dataframe unterteilen möchte:

%Vor%

Wenn ich es versuche:

%Vor%

Ich bekomme:

%Vor%

Aber wenn ich das tue:

%Vor%

Ich bekomme:

%Vor%

Ich weiß nicht, was ich davon halten soll!

Ich habe versucht, die Charaktere, Kaffeehaus 'zu kopieren, um einen Äquivalenztest durchzuführen und False zu erhalten.

%Vor%

Ich habe das Gefühl, dass dies etwas mit Kodierung zu tun hat, aber nicht weiß, wie das Problem erkannt und behoben werden kann. Kann jemand helfen?

python string character-encoding pandas dataframe

vagabond 01.07.2017, 20:30

quelle

1 Antwort

Tags und Links python string character-encoding pandas dataframe

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Eckig 4: InvalidPipeArgument: '[object Object]' für die Pipe 'AsyncPipe'

score 11 · Accepted Answer

Der "Kaffee-Kumpel" in Ihrem Datenrahmen verwendet einen brechungsfreien Bindestrich ( u"\u2011" ), und Ihre Suchzeichenfolge verwendet einen Bindestrich

Nicht brechen Ссылка

Dein Bindestrich Ссылка

Während sie für dich und mich gleich aussehen, betrachtet Python sie als zwei verschiedene Charaktere. Wenn Sie dieses Problem in der Zukunft haben, löste ich dies einfach durch Kopieren des Zeichens in diese UTF8 Werkzeug - Sie sollten einen Vergleich von coffee-mate und coffee‑mate

durchführen