Ich möchte einige HTML-Seiten von Ссылка herunterladen Die ID stammt von einem Array von verschiedenen Zahlen.
Ich wäre daran interessiert, mehrere Instanzen dieser URL zu besuchen und die Datei unter Verwendung verschiedener Proxy-IP / -Ports als [ID] .HTML zu speichern.
Ich möchte verschiedene Benutzeragenten verwenden und möchte die Wartezeiten vor jedem Download randomisieren.
Was ist der beste Weg, dies zu tun? urllib2? pycURL? cURL? Was bevorzugen Sie für die anstehende Aufgabe?
Bitte beraten. Danke Leute!
Verwenden Sie das Unix-Tool wget
. Es hat die Option, einen benutzerdefinierten Benutzeragenten und eine Verzögerung zwischen jedem Abruf der Seite anzugeben.
Sie können die wget (1) man-Seite für weitere Informationen sehen.
Tags und Links python proxy screen-scraping