Herunterladen einer Webseite und aller ihrer Ressourcendateien in Python

9

Ich möchte eine Seite und alle zugehörigen Ressourcen (Bilder, Stylesheets, Skriptdateien usw.) mit Python herunterladen können. Ich bin mit Urlib2 (etwas) vertraut und weiß, wie man einzelne URLs herunterlädt, aber bevor ich anfange, auf BeautifulSoup + urllib2 zu hacken, wollte ich sicher sein, dass es nicht schon ein Python-Äquivalent zu "wget ​​- Seitenanforderungen" gab a href="http://www.google.com"> Ссылка ".

Ich bin insbesondere daran interessiert, statistische Informationen darüber zu sammeln, wie lange es dauert, eine komplette Webseite einschließlich aller Ressourcen herunterzuladen.

Danke Markiere

    
Mark Ransom 09.05.2009, 21:28
quelle

2 Antworten

3

Websucker? Siehe Ссылка

    
RichieHindle 09.05.2009 21:31
quelle
2

websucker.py importiert keine CSS-Links. HTTrack.com ist nicht Python, es ist C / C ++, aber es ist ein gutes, gepflegtes Dienstprogramm zum Herunterladen einer Website für das Offline-Browsing.

Ссылка [issue1124] Webchecker analysiert nicht css "@import url"

Guido & gt; Dies ist im Wesentlichen nicht unterstützter und nicht beibehaltener Beispielcode. Fühle dich frei aber einen Patch einreichen!

    
jamshid 14.05.2010 21:22
quelle

Tags und Links