Ich verarbeite eine große Anzahl von CSV-Dateien in Python. Die Dateien werden von externen Organisationen empfangen und mit einer Reihe von Codierungen codiert. Ich möchte eine automatisierte Methode finden, um Folgendes zu entfernen:
Ich habe ein Produkt namens "Finden und Ersetzen!" das würde reguläre Ausdrücke verwenden, so dass ein Weg, das obige mit einem regulären Ausdruck zu lösen, sehr hilfreich wäre.
Danke
Eine Alternative, an der Sie interessiert sein könnten, wäre:
%Vor%Es filtert einfach alle nicht druckbaren Zeichen aus der unsauberen Zeichenfolge, die es empfängt.
%Vor%Versuchen Sie Folgendes:
%Vor%Die Idee ist, jedes NUL oder "high ASCII" -Zeichen (d. h. \ 0 und solche, die nicht in 7 Bits passen) abzugleichen und sie zu entfernen. Sie können weitere Zeichen hinzufügen, wenn Sie sie finden, z. B. ASCII ESC oder BEL.
Oder das:
%Vor%Die Idee ist, nur den begrenzten Bereich von "druckbarem ASCII" zuzulassen, aber beachten Sie, dass dadurch auch Zeilenumbrüche entfernt werden. Wenn Sie Zeilenumbrüche oder Tabulatoren oder Ähnliches beibehalten möchten, fügen Sie sie einfach in die Klammern ein.
Ersetzen Sie alles, was kein wünschenswertes Zeichen ist, mit einem Leerzeichen (löschen Sie es):
%Vor% Dies erlaubt alle Leerzeichen (Leerzeichen, Zeilenumbrüche, Tabulatoren usw.) und alle "normalen" Zeichen ( !
ist das erste ASCII-druckbare und ~
ist das letzte ASCII-Zeichen unter Dezimal 128).