Beste Java-Lib für HTTP-Verbindungen?

Question

Beste Java-Lib für HTTP-Verbindungen?

8

Hallo, ich schreibe ein einfaches Web-Crawler-Skript, das eine Verbindung zu einer Webseite herstellen muss, folge den 302-Weiterleitungen automatisch, gib mir die letzte URL aus dem Link und lass mich den HTML-Code holen.

Was ist die bevorzugte Java-Bibliothek für diese Art von Dingen?

Danke

java

James 02.07.2010, 03:18

quelle

2 Antworten

2

Wie BalusC gesagt hat, schauen Sie sich den Apache HttpComponents Client an. Das Nutch-Projekt hat viele harte Crawling / Hol- / Indizierungsprobleme gelöst. Wenn Sie also sehen möchten, wie sie die folgenden 302 lösen, werfen Sie einen Blick auf Ссылка

labratmatt 02.07.2010 03:42

quelle

Tags und Links java

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Wie sollte das Form.Load-Ereignis im Vergleich zu seiner Konstruktormethode verwendet werden?

score 9 · Accepted Answer

Sie können dafür Apache HttpComponents Client verwenden (oder "plain vanilla", das integrierte Java SE und URLConnection API). Für den HTML-Parsing- / Traversing- / Manipulationsteil kann Jsoup nützlich .

Beachten Sie, dass ein vernünftiger Crawler der robots.txt folgen sollte. Vielleicht möchten Sie einen Blick auf Java-basierte Webcrawler werfen, wie ~~J-Spider~~ Apache Nutch .