Beste Java-Lib für HTTP-Verbindungen?

8

Hallo, ich schreibe ein einfaches Web-Crawler-Skript, das eine Verbindung zu einer Webseite herstellen muss, folge den 302-Weiterleitungen automatisch, gib mir die letzte URL aus dem Link und lass mich den HTML-Code holen.

Was ist die bevorzugte Java-Bibliothek für diese Art von Dingen?

Danke

    
James 02.07.2010, 03:18
quelle

2 Antworten

9

Sie können dafür Apache HttpComponents Client verwenden (oder "plain vanilla", das integrierte Java SE und URLConnection API). Für den HTML-Parsing- / Traversing- / Manipulationsteil kann Jsoup nützlich .

Beachten Sie, dass ein vernünftiger Crawler der robots.txt folgen sollte. Vielleicht möchten Sie einen Blick auf Java-basierte Webcrawler werfen, wie J-Spider Apache Nutch .

    
BalusC 02.07.2010, 03:20
quelle
2

Wie BalusC gesagt hat, schauen Sie sich den Apache HttpComponents Client an. Das Nutch-Projekt hat viele harte Crawling / Hol- / Indizierungsprobleme gelöst. Wenn Sie also sehen möchten, wie sie die folgenden 302 lösen, werfen Sie einen Blick auf Ссылка

    
labratmatt 02.07.2010 03:42
quelle

Tags und Links