Ich habe eine Menge Text- / HTML-Dokumente, die ich gerade bearbeite
Einige von ihnen enthalten kodierte HTML-Entitäten, die ich in ihre rohen entschlüsselten UTF-Zeichen konvertieren möchte.
Dies ist einfach mit html_entity_decode
, aber einige der Entitäten sind ungültig wie
Aus diesem Grund benutze ich eine Regexp, um jede einzelne Entität herauszuziehen und dann zu versuchen, sie irgendwie zu validieren.
Wenn eine Entität ungültig ist, möchte ich sie als 򙦙
im Dokument belassen, aber Dinge wie eine codierte &
würden immer noch &
werden.
Ich habe nur einen Testcode bekommen, den ich gekriegt habe.
%Vor%Ich zeichne ein bisschen leer, wie man die Entität am besten validiert, würde mir bitte etwas Hilfe gefallen.
Tags und Links php html-entities iconv