Wie finde ich ungültige HTML-Entitäten in PHP?

8

Ich habe eine Menge Text- / HTML-Dokumente, die ich gerade bearbeite

Einige von ihnen enthalten kodierte HTML-Entitäten, die ich in ihre rohen entschlüsselten UTF-Zeichen konvertieren möchte.

Dies ist einfach mit html_entity_decode , aber einige der Entitäten sind ungültig wie

%Vor%

Aus diesem Grund benutze ich eine Regexp, um jede einzelne Entität herauszuziehen und dann zu versuchen, sie irgendwie zu validieren.

Wenn eine Entität ungültig ist, möchte ich sie als 򙦙 im Dokument belassen, aber Dinge wie eine codierte & würden immer noch & werden.

Ich habe nur einen Testcode bekommen, den ich gekriegt habe.

%Vor%

Ich zeichne ein bisschen leer, wie man die Entität am besten validiert, würde mir bitte etwas Hilfe gefallen.

    
carpii 05.07.2014, 23:14
quelle

1 Antwort

2

Ich habe schließlich einen Weg gefunden ..

%Vor%

Wenn Sie eine Zeichenkette durch diese Funktion ausführen, werden alle gültigen Entitäten in ihre tatsächlichen UTF-Zeichen konvertiert, wobei alle ungültigen als Entitäten verbleiben

    
carpii 06.07.2014, 17:08
quelle

Tags und Links