Ich möchte eine Seite und alle zugehörigen Ressourcen (Bilder, Stylesheets, Skriptdateien usw.) mit Python herunterladen können. Ich bin mit Urlib2 (etwas) vertraut und weiß, wie man einzelne URLs herunterlädt, aber bevor ich anfange, auf BeautifulSoup + urllib2 zu hacken, wollte ich sicher sein, dass es nicht schon ein Python-Äquivalent zu "wget - Seitenanforderungen" gab a href="http://www.google.com"> Ссылка ".
Ich bin insbesondere daran interessiert, statistische Informationen darüber zu sammeln, wie lange es dauert, eine komplette Webseite einschließlich aller Ressourcen herunterzuladen.
Danke Markiere
websucker.py importiert keine CSS-Links. HTTrack.com ist nicht Python, es ist C / C ++, aber es ist ein gutes, gepflegtes Dienstprogramm zum Herunterladen einer Website für das Offline-Browsing.
Ссылка [issue1124] Webchecker analysiert nicht css "@import url"
Guido & gt; Dies ist im Wesentlichen nicht unterstützter und nicht beibehaltener Beispielcode. Fühle dich frei aber einen Patch einreichen!