Ich möchte einige Teile von Daten extrahieren, die auf einer Webseite gerendert wurden. Ich bin in der Lage, die gesamten Daten von der Seite zu ziehen und sie in einer Textdatei (RAW) unter Verwendung des folgenden Codes zu speichern.
%Vor%Ich frage mich nur, ob es überhaupt noch Alternativen und Vorteile gibt.
cURL ist ein guter Anfang. Eine bessere Befehlszeile wird sein:
%Vor%weil es mit Cookies, User-Agent, SSL-Zertifikaten und anderen Dingen spielt.
Siehe man curl
Eine einzelne Web-Ressource speichern / verarbeiten: Der obige Ansatz eignet sich gut für eine einzelne Datei / Web-Ressource. Außerdem können Sie einen Regex pipen und Daten basierend auf einem voreingestellten Muster zerhacken oder überspringen. zB: speichern Sie alle Tags Quell-URLs.
Gesamtes Verzeichnis oder Website rekursiv speichern / verarbeiten: Verwenden Sie ein Python- oder Perl-Skript, das alle Links iterativ herunterziehen kann und Ressourcen, die zu einer Seite oder einem Website-DNS-Namen gehören. In Python I würde http lib verwenden und die Tags rekursiv analysieren (stellen Sie sicher, dass Sie ein Tiefenlimit haben oder bei einer großen Website könnten Sie am Ende Gigs von Daten speichern!). Eine einfache und sichere Wette ist Beautiful Soup - das ist eine Python-Bibliothek, die Web-Daten verschrotten, navigieren, ein Parse durchsuchen kann Baum einer entfernten Web-Ressource. Es kann auch den geparsten lokalen Inhalt ändern, usw.
Ihr Beispielcode ruft alle Daten von der Webseite ab. Wenn Sie die Webseite analysieren und spezifische Informationen extrahieren möchten, schlage ich vor, dass Sie einen vorhandenen Parser verwenden.
Normalerweise verwende ich BeautifulSoup , um Daten aus HTML-Seiten zu extrahieren.
Tags und Links python