Hallo, ich schreibe ein einfaches Web-Crawler-Skript, das eine Verbindung zu einer Webseite herstellen muss, folge den 302-Weiterleitungen automatisch, gib mir die letzte URL aus dem Link und lass mich den HTML-Code holen.
Was ist die bevorzugte Java-Bibliothek für diese Art von Dingen?
Danke
Sie können dafür Apache HttpComponents Client verwenden (oder "plain vanilla", das integrierte Java SE und URLConnection
API). Für den HTML-Parsing- / Traversing- / Manipulationsteil kann Jsoup nützlich .
Beachten Sie, dass ein vernünftiger Crawler der robots.txt folgen sollte. Vielleicht möchten Sie einen Blick auf Java-basierte Webcrawler werfen, wie J-Spider Apache Nutch .
Wie BalusC gesagt hat, schauen Sie sich den Apache HttpComponents Client an. Das Nutch-Projekt hat viele harte Crawling / Hol- / Indizierungsprobleme gelöst. Wenn Sie also sehen möchten, wie sie die folgenden 302 lösen, werfen Sie einen Blick auf Ссылка
Tags und Links java