Verwendung mehrerer Webseiten in einem Web-Scraper

8

Ich habe an etwas Python-Code gearbeitet, um Links zu Social-Media-Accounts von Regierungswebsites zu bekommen, um herauszufinden, mit welchen Kommunen man leicht Kontakt aufnehmen kann. Ich habe es geschafft, etwas Code anzupassen, um in 2.7 zu arbeiten, der alle Verbindungen zu Facebook, Twitter, linkedin und google + druckt, die auf einer gegebenen Eingangswebsite anwesend sind. Das Problem, das ich momentan habe, ist, dass ich nicht nach Links auf nur einer Webseite suche, sondern auf einer Liste von ungefähr 200 Webseiten, die ich in einer Excel-Datei habe. Ich habe keine Erfahrung damit, diese Art von Listen in Python zu importieren, also habe ich mich gefragt, ob irgendjemand den Code betrachten könnte, und einen vernünftigen Weg vorschlagen, alle diese Webseiten als base_url zu setzen, wenn möglich;

%Vor%     
Stefan Förch 11.01.2016, 09:42
quelle

1 Antwort

5

Sie haben erwähnt, dass Sie eine Excel-Datei mit der Liste aller Websites richtig haben? Daher können Sie die Excel-Datei als eine csv -Datei exportieren, aus der Sie Werte aus Ihrem Python-Code lesen können.

Hier finden Sie weitere Informationen dazu .

So arbeiten Sie direkt mit Excel-Dateien

Sie können etwas nach den folgenden Kriterien tun:

%Vor%

Jetzt links ist eine Liste aller URLs. Sie können dann die Liste innerhalb einer Funktion durchlaufen, die die Seite abruft und die Daten abkratzt.

%Vor%

Abgesehen davon sollten Sie Ihre if-Bedingungen wahrscheinlich aufteilen, um sie lesbarer zu machen.

    
Bhargav 11.01.2016, 10:12
quelle

Tags und Links