web-scraping, Seitenzahl 2

Web Scraping ist der Prozess zum Extrahieren spezifischer Informationen von Websites, die nicht ohne weiteres eine API oder andere Methoden zur automatisierten Datenwiederherstellung bereitstellen. Fragen zu "Wie man mit Scraping anfängt" (z. B. mit Excel VBA) sollten * gründlich untersucht werden, da zahlreiche funktionale Codebeispiele verfügbar sind. Web-Scraping-Methoden umfassen Anwendungen von Drittanbietern, die Entwicklung von benutzerdefinierter Software oder sogar die manuelle Datenerfassung auf standardisierte Weise.

Antwort

Wie bekomme ich die originale start_url in scrapy (vor der Weiterleitung)

Ich benutze Scrapy, um einige Seiten zu crawlen. Ich hole die start_urls von einem Excel-Blatt und ich muss die URL in dem Element speichern. %Vor% Das Problem ist, dass die URL auf eine andere URL umgeleitet wird (und somit etwas anderes in...

30.05.2013, 18:07

Antworten

Scrape und konvertieren Sie die Website in HTML?

Ich habe das in 3 oder 4 Jahren nicht gemacht, aber ein Kunde möchte seine dynamische Website in statisches HTML herunterstufen. Gibt es irgendwelche kostenlosen Tools, um eine Domain zu crawlen und funktionierende HTML-Dateien zu erzeugen, u...

12.08.2010, 15:30

Antwort

post Anfrage mit Python zu asp.net Seite

Ich möchte die PINCODEs von " Ссылка verschrotten", mache ich mit folgendem Code geschrieben. %Vor% Ich erhalte eine Antwort vom Server als "Es tut uns leid, dass auf dieser Website ein schwerwiegendes Problem aufgetreten ist. Bitte laden S...

07.02.2013, 08:32

Antworten

Extrahieren Sie Links aus der HTML-Tabelle

Ich versuche, die Links von der folgenden Webseite Ссылка vom Typ "Specimen" zu extrahieren. Ich kann die Tabelle von der Webseite mit dem folgenden Code abrufen: %Vor% Allerdings fehlen die Links, nachdem ich den readHTML-Befehl verwendet...

05.09.2012, 22:00

Antworten

Beautifulsoup 4: Entfernen Sie das Kommentar-Tag und seinen Inhalt

Die Seite, die ich verschrotte, enthält diese HTML-Codes. Wie entferne ich das Kommentar-Tag  zusammen mit seinem Inhalt mit bs4 ? %Vor%

25.04.2014, 17:34

Antworten

asyncio web scraping 101: holt mehrere urls mit aiohttp

In einer früheren Frage schlug einer der Autoren von aiohttp freundlicherweise vor, mehrere URLs mit aiohttp abzurufen , um die neuen% zu verwenden. co_de% Syntax von async with : %Vor% Wenn jedoch eine der Python 3.5 -Anforderungen...

10.03.2016, 20:45

Antwort

Wie kann ich anfangen, Komponententest im Web Scrapy mit Python zu schreiben?

%Vor% Ich arbeite gerade an Scrapy, um die Website zu crawlen. Ich habe etwas über Unittest in Python. Aber, wie kann ich den unittest schreiben, um zu überprüfen, dass der Link funktioniert, und item['location'] , item['details'] geben de...

16.01.2015, 03:53

Antwort

PYTHON SCRAPY Kann keine Informationen an Formulare senden,

Ich denke, dass ich sehr großen Gefallen fragen werde, wenn ich mit diesem Problem mehrere Tage kämpfe. Ich habe alles versucht (in meinem besten Wissen) und immer noch kein Ergebnis. Ich mache etwas falsch, kann aber immer noch nicht herausfind...

01.07.2013, 11:38

Antworten

httrack wget curl scrape & fetch

Es gibt eine Reihe von Tools im Internet zum Herunterladen einer statischen Kopie einer Website wie HTTrack. Es gibt auch viele Tools, einige kommerzielle, um Inhalte von einer Website wie Mozenda zu "scrapen". Dann gibt es Tools, die anscheinen...

30.09.2013, 15:39

Antworten

Könnte ein Web-Scraper einen guten Gasschutz erreichen?

Angenommen, eine Datenquelle setzt eine enge IP-basierte Drosselung fest. Wäre es einem Web-Scraper möglich, die Daten herunterzuladen, wenn die Drosselung bereits 1% der heruntergeladenen Daten ablehnt? Die einzige Technik, die ich von einem...

01.02.2011, 21:47