Wo soll ich anfangen, mit Python einen Scraper oder einen Bot zu machen? [geschlossen]

8

Ich bin nicht so neu in Programmiersprachen (Python), aber ich habe keine Ahnung, wo ich anfangen werde, einen Bot oder einen Scraper mit Python zu erstellen. sollte ich in cgi programmieren lernen? Oder läuft der Scraper nur mit einem Python-Skript? Soll ich dafür einen Server bauen? Keine Ahnung dafür ... Danke für die Hilfe

    
Kyle 19.06.2010, 14:22
quelle

3 Antworten

2

Wenn Sie versuchen, auf Websites zuzugreifen, die stark von JavaScript Gebrauch machen, können Sie Selenium leichter finden.

Selenium ist ein Server, der tatsächliche Webbrowser auf Ihrem Server und eine Clientbibliothek (einschließlich eines Python-Ports) steuert, mit der Sie die Browser steuern und die darin enthaltenen Seiten überprüfen können.

Es ist definitiv mehr Aufwand, die Server- und Client-Bibliothek zu konfigurieren (und herauszufinden, dass Sie einen funktionierenden Browser auf Ihrem System haben), aber wenn die Website in JavaScript eine Menge Dinge erledigt, dann ist Ihre Der tatsächliche Scraping-Code könnte viel weniger haarig sein.

    
Paul D. Waite 04.04.2011 21:09
quelle
1

Screen Scraping beinhaltet eine Menge regulärer Ausdrücke, um genau die gewünschten Daten zu erhalten. Sie möchten auch wissen, welche Art von Daten Sie analysieren möchten und wie Sie sie speichern möchten.

Um die Seiten zu erhalten, müssen Sie Bibliotheken wie urllib (oder urllib2) und reguläre Ausdrücke (re) verwenden oder ein gutes Skript ist beautifulsoup, um Ihre schmutzige Arbeit zu erledigen ( Ссылка )

Wenn Sie einen reinen Bot bauen wollen, der das tut, was die Suchmaschinen tun, müssen Sie auch einen intelligenten Bot bauen, um zu wissen, dass Sie nicht ständig die gleiche Domäne anpingen (führt zu einem DOS-Angriff) / p>     

Duniyadnd 19.06.2010 14:35
quelle

Tags und Links