Intelligentes Screen Scraping mit verschiedenen Proxies und User-Agenten nach dem Zufallsprinzip?

8

Ich möchte einige HTML-Seiten von Ссылка herunterladen Die ID stammt von einem Array von verschiedenen Zahlen.

Ich wäre daran interessiert, mehrere Instanzen dieser URL zu besuchen und die Datei unter Verwendung verschiedener Proxy-IP / -Ports als [ID] .HTML zu speichern.

Ich möchte verschiedene Benutzeragenten verwenden und möchte die Wartezeiten vor jedem Download randomisieren.

Was ist der beste Weg, dies zu tun? urllib2? pycURL? cURL? Was bevorzugen Sie für die anstehende Aufgabe?

Bitte beraten. Danke Leute!

    
ThinkCode 10.05.2010, 15:08
quelle

3 Antworten

5

Verwenden Sie etwas wie:

%Vor%     
hoju 12.05.2010, 15:04
quelle
2

Verwenden Sie das Unix-Tool wget . Es hat die Option, einen benutzerdefinierten Benutzeragenten und eine Verzögerung zwischen jedem Abruf der Seite anzugeben.

Sie können die wget (1) man-Seite für weitere Informationen sehen.

    
pajton 10.05.2010 15:14
quelle
2

Wenn Sie keine offenen Proxies verwenden möchten, gehen Sie zu ProxyMesh , die IP-Rotation / Randomisierung für Sie übernimmt.

    
Jacob 27.03.2011 15:43
quelle

Tags und Links