Wie analysiere und modifiziere ich HTML-Dateien in Java

8

Ich mache ein Projekt, bei dem ich eine HTML-Datei lesen und bestimmte Tags identifizieren, den Inhalt des Tags ändern und eine neue HTML-Datei erstellen muss. Gibt es eine Bibliothek, die HTML-Tags analysiert und die Tags in eine neue Datei zurückschreiben kann?

    
chai 11.10.2010, 13:01
quelle

4 Antworten

2


Wenn Sie die Webseite ändern und modifizierten Inhalt zurückgeben möchten, ist der beste Weg, die XSL-Transformation zu verwenden.
Ссылка

    
Igor Konoplyanko 11.10.2010, 13:12
quelle
6
___ qstnhdr ___ Wie analysiere und modifiziere ich HTML-Dateien in Java ___ answer3906540 ​​___

Sieh dir Ссылка an, es hat eine benutzerfreundliche dom-ähnliche API, für einfache Aufgaben, die du nicht html parsen musst.

>     
___ tag123java ___ Java (nicht zu verwechseln mit JavaScript oder JScript oder JS) ist eine universelle objektorientierte Programmiersprache, die für die Verwendung in Verbindung mit der Java Virtual Machine (JVM) entwickelt wurde. "Java-Plattform" ist der Name für ein Computersystem, auf dem Tools zum Entwickeln und Ausführen von Java-Programmen installiert sind. Verwenden Sie dieses Tag für Fragen, die sich auf die Java-Programmiersprache oder Java-Plattform-Tools beziehen. ___ answer3906506 ___


Wenn Sie die Webseite ändern und modifizierten Inhalt zurückgeben möchten, ist der beste Weg, die XSL-Transformation zu verwenden.
Ссылка

    
___ tag123html ___ HTML (Hyper Text Markup Language) ist die Standard-Auszeichnungssprache, die zum Strukturieren von Webseiten und zum Formatieren von Inhalt verwendet wird. HTML beschreibt die Struktur einer Website semantisch zusammen mit Hinweisen für die Präsentation, wodurch sie eine Markup-Sprache statt einer Programmiersprache wird. Die neueste Revision der HTML-Spezifikation ist HTML5.2. ___ answer3906470 ___

Es gibt zu viele HTML-Parser. Sie könnten JTidy , NekoHTML oder überprüfen TagSoup .

Normalerweise bevorzuge ich die Syntaxanalyse von XHTML mit den Standard-Java-XML-Parsern, aber Sie können dies nicht für jede Art von HTML tun.

    
___ answer3906469 ___

Sehen Sie Ссылка für eine Liste von Java-Bibliotheken, die HTML-Dateien in Java-Objekte analysieren, die sein können manipuliert.

Wenn die HTML-Dateien, mit denen Sie arbeiten, gut formatiert sind (xhtml), können Sie auch XML-Bibliotheken in Java verwenden, um bestimmte Tags zu finden und zu ändern. Die E / A selbst sollte von den jeweiligen Bibliotheken gehandhabt werden.

Wenn Sie die Strings manuell analysieren, können Sie reguläre Ausdrücke verwenden, um bestimmte Tags zu finden und die Java-io-Bibliotheken verwenden, um in die Dateien zu schreiben und neue HTML-Dokumente zu erstellen. Aber diese Methode erfindet das Rad sozusagen neu, weil Sie das Öffnen und Schließen von Tags verwalten müssen, und all diese Dinge werden von bereits vorhandenen Bibliotheken gehandhabt.

    
___ tag123htmlparsing ___ Beim HTML-Parsing wird eine Serialisierung eines HTML-Dokuments konsumiert und eine Repräsentation erstellt, mit der Sie programmatisch arbeiten können, z. B. um zusätzliche Daten daraus zu erhalten. Die HTML-Spezifikation definiert einen Standardalgorithmus zum Parsen von HTML, der in allen gängigen Browsern implementiert ist. ___ qstntxt ___

Ich mache ein Projekt, bei dem ich eine HTML-Datei lesen und bestimmte Tags identifizieren, den Inhalt des Tags ändern und eine neue HTML-Datei erstellen muss. Gibt es eine Bibliothek, die HTML-Tags analysiert und die Tags in eine neue Datei zurückschreiben kann?

    
___
Victor Ionescu 11.10.2010 13:17
quelle
2

Es gibt zu viele HTML-Parser. Sie könnten JTidy , NekoHTML oder überprüfen TagSoup .

Normalerweise bevorzuge ich die Syntaxanalyse von XHTML mit den Standard-Java-XML-Parsern, aber Sie können dies nicht für jede Art von HTML tun.

    
ivy 11.10.2010 13:06
quelle
0

Sehen Sie Ссылка für eine Liste von Java-Bibliotheken, die HTML-Dateien in Java-Objekte analysieren, die sein können manipuliert.

Wenn die HTML-Dateien, mit denen Sie arbeiten, gut formatiert sind (xhtml), können Sie auch XML-Bibliotheken in Java verwenden, um bestimmte Tags zu finden und zu ändern. Die E / A selbst sollte von den jeweiligen Bibliotheken gehandhabt werden.

Wenn Sie die Strings manuell analysieren, können Sie reguläre Ausdrücke verwenden, um bestimmte Tags zu finden und die Java-io-Bibliotheken verwenden, um in die Dateien zu schreiben und neue HTML-Dokumente zu erstellen. Aber diese Methode erfindet das Rad sozusagen neu, weil Sie das Öffnen und Schließen von Tags verwalten müssen, und all diese Dinge werden von bereits vorhandenen Bibliotheken gehandhabt.

    
Matt Phillips 11.10.2010 13:06
quelle

Tags und Links