Die beste Methode zum Extrahieren von Text (z. B. Artikeln) von der Webseite [geschlossen]

8

Ich versuche also, ein Programm zu schreiben, das bestimmte Informationen aus verschiedenen Artikeln sammeln und kombinieren kann. Der Schritt, in dem ich Probleme habe, ist das Extrahieren des Artikels von der Webseite.

Ich habe mich gefragt, ob Sie irgendwelche Vorschläge für Java-Bibliotheken / Methoden zum Extrahieren von Text von einer Webseite geben könnten?

Ich habe dieses Produkt auch gefunden: Ссылка und fragte mich, ob du denkst, dass das der richtige Weg ist? Wenn ja, kann mich jemand auf eine Java-Implementierung hinweisen - ich kann anscheinend keine finden, obwohl es sie anscheinend gibt.

Vielen Dank

Klarstellung - Ich suche mehr nach einem Algorithmus / einer Bibliothek / Methode, um zu erkennen, wo sich in einem HTML-Baum ein Textblock befindet, der ein Artikel sein könnte. Wie die Leserfunktion von Safari. ps, wenn Sie denken, dass dies viel einfacher ist in etwas wie Python sagen Sie einfach - obwohl mein Programm in Java laufen muss, wie es schließlich auf einem Server laufen sollte (mit Java-Framework) könnte ich versuchen, es Python-Skripte verwenden - obwohl würde tun Sie das nur, wenn Sie davon ausgehen, dass Python der richtige Weg ist.

    
Saad Attieh 24.12.2013, 23:25
quelle

3 Antworten

3

Sieh dir Apache Tika an. Es soll zusammen mit einem Crawler verwendet werden und sowohl Text als auch Metadaten für Sie extrahieren. Sie können auch verschiedene Ausgabetypen auswählen.

    
Jakub Kotowski 25.12.2013 00:17
quelle
3

Ich habe eine Open-Source-Lösung gefunden, die extrem gut bewertet wurde. Ссылка

Eine Übersicht über verschiedene Textextraktionsalgorithmen: Ссылка

Es scheint, dass diffbot sehr gut funktioniert, aber nicht Open Source ist. Also im Hinblick auf Open Source, könnte Kesselrohr der Weg sein.

    
Saad Attieh 25.12.2013 00:51
quelle
-1

Dies ist nicht die Antwort auf jedes fehlerhafte HTML, das Sie bekommen können, aber die meiste Zeit jtidy leistet einen guten Job beim Reinigen des HTML und geben Ihnen eine Schnittstelle für den Zugriff auf die verschiedenen DOM-Knoten und mit diesem Zugriff auf den Text innerhalb dieser Knoten.

    
lwi 24.12.2013 23:41
quelle

Tags und Links