Herunterladen einer Webseite und aller ihrer Ressourcendateien in Python

Question

Herunterladen einer Webseite und aller ihrer Ressourcendateien in Python

9

Ich möchte eine Seite und alle zugehörigen Ressourcen (Bilder, Stylesheets, Skriptdateien usw.) mit Python herunterladen können. Ich bin mit Urlib2 (etwas) vertraut und weiß, wie man einzelne URLs herunterlädt, aber bevor ich anfange, auf BeautifulSoup + urllib2 zu hacken, wollte ich sicher sein, dass es nicht schon ein Python-Äquivalent zu "wget - Seitenanforderungen" gab a href="http://www.google.com"> Ссылка ".

Ich bin insbesondere daran interessiert, statistische Informationen darüber zu sammeln, wie lange es dauert, eine komplette Webseite einschließlich aller Ressourcen herunterzuladen.

Danke Markiere

python urllib2 wget

Mark Ransom 09.05.2009, 21:28

quelle

2 Antworten

Tags und Links python urllib2 wget

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Mysql sortierte Werte sortiert

score 3 · Answer 1

3

Websucker? Siehe Ссылка

RichieHindle 09.05.2009 21:31

quelle

score 2 · Answer 2

websucker.py importiert keine CSS-Links. HTTrack.com ist nicht Python, es ist C / C ++, aber es ist ein gutes, gepflegtes Dienstprogramm zum Herunterladen einer Website für das Offline-Browsing.

Ссылка [issue1124] Webchecker analysiert nicht css "@import url"

Guido & gt; Dies ist im Wesentlichen nicht unterstützter und nicht beibehaltener Beispielcode. Fühle dich frei aber einen Patch einreichen!