Skript zum Extrahieren von Daten von der Webseite

8

Ich möchte einige Teile von Daten extrahieren, die auf einer Webseite gerendert wurden. Ich bin in der Lage, die gesamten Daten von der Seite zu ziehen und sie in einer Textdatei (RAW) unter Verwendung des folgenden Codes zu speichern.

%Vor%

Ich frage mich nur, ob es überhaupt noch Alternativen und Vorteile gibt.

    
Selase 29.05.2012, 21:39
quelle

4 Antworten

7

Ich würde eine Kombination aus Anfragen und BeautifulSoup .

%Vor%     
sberry 29.05.2012, 21:46
quelle
1

cURL ist ein guter Anfang. Eine bessere Befehlszeile wird sein:

%Vor%

weil es mit Cookies, User-Agent, SSL-Zertifikaten und anderen Dingen spielt.

Siehe man curl

    
Gilles Quenot 29.05.2012 21:50
quelle
1
  1. Eine einzelne Web-Ressource speichern / verarbeiten: Der obige Ansatz eignet sich gut für eine einzelne Datei / Web-Ressource. Außerdem können Sie einen Regex pipen und Daten basierend auf einem voreingestellten Muster zerhacken oder überspringen. zB: speichern Sie alle Tags Quell-URLs.

  2. Gesamtes Verzeichnis oder Website rekursiv speichern / verarbeiten: Verwenden Sie ein Python- oder Perl-Skript, das alle Links iterativ herunterziehen kann und Ressourcen, die zu einer Seite oder einem Website-DNS-Namen gehören. In Python I würde http lib verwenden und die Tags rekursiv analysieren (stellen Sie sicher, dass Sie ein Tiefenlimit haben oder bei einer großen Website könnten Sie am Ende Gigs von Daten speichern!). Eine einfache und sichere Wette ist Beautiful Soup - das ist eine Python-Bibliothek, die Web-Daten verschrotten, navigieren, ein Parse durchsuchen kann Baum einer entfernten Web-Ressource. Es kann auch den geparsten lokalen Inhalt ändern, usw.

Syam Sathyan 29.05.2012 21:55
quelle
0

Ihr Beispielcode ruft alle Daten von der Webseite ab. Wenn Sie die Webseite analysieren und spezifische Informationen extrahieren möchten, schlage ich vor, dass Sie einen vorhandenen Parser verwenden.

Normalerweise verwende ich BeautifulSoup , um Daten aus HTML-Seiten zu extrahieren.

    
HAL 29.05.2012 21:46
quelle

Tags und Links