Ich versuche also, ein Programm zu schreiben, das bestimmte Informationen aus verschiedenen Artikeln sammeln und kombinieren kann. Der Schritt, in dem ich Probleme habe, ist das Extrahieren des Artikels von der Webseite.
Ich habe mich gefragt, ob Sie irgendwelche Vorschläge für Java-Bibliotheken / Methoden zum Extrahieren von Text von einer Webseite geben könnten?
Ich habe dieses Produkt auch gefunden: Ссылка und fragte mich, ob du denkst, dass das der richtige Weg ist? Wenn ja, kann mich jemand auf eine Java-Implementierung hinweisen - ich kann anscheinend keine finden, obwohl es sie anscheinend gibt.
Vielen Dank
Klarstellung - Ich suche mehr nach einem Algorithmus / einer Bibliothek / Methode, um zu erkennen, wo sich in einem HTML-Baum ein Textblock befindet, der ein Artikel sein könnte. Wie die Leserfunktion von Safari. ps, wenn Sie denken, dass dies viel einfacher ist in etwas wie Python sagen Sie einfach - obwohl mein Programm in Java laufen muss, wie es schließlich auf einem Server laufen sollte (mit Java-Framework) könnte ich versuchen, es Python-Skripte verwenden - obwohl würde tun Sie das nur, wenn Sie davon ausgehen, dass Python der richtige Weg ist.
Sieh dir Apache Tika an. Es soll zusammen mit einem Crawler verwendet werden und sowohl Text als auch Metadaten für Sie extrahieren. Sie können auch verschiedene Ausgabetypen auswählen.
Dies ist nicht die Antwort auf jedes fehlerhafte HTML, das Sie bekommen können, aber die meiste Zeit jtidy leistet einen guten Job beim Reinigen des HTML und geben Ihnen eine Schnittstelle für den Zugriff auf die verschiedenen DOM-Knoten und mit diesem Zugriff auf den Text innerhalb dieser Knoten.