web-scraping

Web Scraping ist der Prozess zum Extrahieren spezifischer Informationen von Websites, die nicht ohne weiteres eine API oder andere Methoden zur automatisierten Datenwiederherstellung bereitstellen. Fragen zu "Wie man mit Scraping anfängt" (z. B. mit Excel VBA) sollten * gründlich untersucht werden, da zahlreiche funktionale Codebeispiele verfügbar sind. Web-Scraping-Methoden umfassen Anwendungen von Drittanbietern, die Entwicklung von benutzerdefinierter Software oder sogar die manuelle Datenerfassung auf standardisierte Weise.
2
Antworten

Blockieren der Website-Scraping von Google Text & Tabellen

Ich betreibe eine Website, die verschiedene Daten im Diagramm- / Tabellenformat für die Leser zur Verfügung stellt. Kürzlich habe ich festgestellt, dass die Anfragen an die Website, die von Google Docs stammen, zugenommen haben. Betrachtet man d...
24.01.2017, 14:40
1
Antwort

Navigieren / Scrappen von Hashbang-Links mit Javascript (phantomjs)

Ich versuche, den HTML-Code einer Website herunterzuladen, die fast ausschließlich mit JavaScript erstellt wurde. Also muss ich den Browser-Zugang simulieren und habe mit PhantomJS herumgespielt. Das Problem ist, dass die Seite Hashbang-URLs v...
20.06.2011, 16:04
2
Antworten

Wie lade ich eine große Binärdatei mit RCurl * nach * Server-Authentifizierung herunter

Ich habe ursprünglich diese Frage gestellt über die Durchführung dieser Aufgabe mit dem httr -Paket, aber ich denke nicht, dass es möglich ist, httr zu verwenden. Also habe ich meinen Code neu geschrieben, um stattdessen RCurl zu verw...
26.06.2013, 19:56
2
Antworten

injectJs mit PhantomJs und CasperJs

Ich versuche CasperJS zu verwenden, um eine Website mit dynamischen Inhalten zu scrappen, die bisher fehlgeschlagen ist. Die Website verwendet einige js-Bibliotheken (z. B. Prototyp), um die automatische Vervollständigung zum Erstellen von Inhal...
28.06.2012, 03:18
1
Antwort

Verwenden von tor und python zum scrappen von Google Scholar

Ich arbeite an einem Projekt, um zu analysieren, wie Zeitschriftenartikel zitiert werden. Ich habe eine große Datei mit Zeitschriftenartikelnamen. Ich beabsichtige, sie an Google Scholar weiterzuleiten und zu sehen, wie viele Zitate sie haben....
12.07.2012, 00:42
0
Antworten

Headless-Browser für Multithread-Anwendung [geschlossen]

Ich suche einen kopflosen Browser für .NET Multithread-Anwendung. Es muss folgende Eigenschaften haben: Arbeiten ohne Serverinstallation . Ich brauche nur eine einfache Bibliothek mit meiner Bewerbung verteilen. Ajax / HTML 5-Unterstützu...
01.02.2013, 17:43
4
Antworten

Scrapping von Daten von der Website mit vba

Ich versuche, Daten von der Website zu kratzen: Ссылка über vba, wie Echtzeitpreis, dh Deutsch 5 YR Bobl, US 30Y T-Bond, ich habe versucht, Excel-Web-Abfrage, aber es kratzt nur die gesamte Website, aber ich möchte nur die Rate kratzen, gibt e...
21.11.2014, 17:25
2
Antworten

Übergeben Sie den User-Agent über den Webdriver in Selenium

Ich arbeite an einem Website-Scraping-Projekt mit Selenium in Python. Wenn ich die Homepage über einen Browser öffne, wird sie ordnungsgemäß geöffnet. Aber wenn ich versuche, die Webseite über webdriver() in Selenium zu öffnen, öffnet sich...
27.11.2011, 14:06
2
Antworten

BeautifulSoup webscrapping find_all (): Finden einer genauen Übereinstimmung

Ich benutze Python und BeautifulSoup für Web Scraping. Sagen wir, ich habe den folgenden HTML-Code zum scrape: %Vor% Mit BeautifulSoup möchte ich NUR die Produkte mit dem Attribut class="product" finden (nur Produkt 1 und 2), nicht die "s...
29.03.2014, 04:08
2
Antworten

Nach dem Hyperlink und "Gefilterte Offsite-Anfrage"

Ich weiß, dass es da draußen mehrere zusammenhängende Threads gibt, und sie haben mir sehr geholfen, aber ich komme immer noch nicht ganz durch. Ich bin an dem Punkt, wo die Ausführung des Codes nicht zu Fehlern führt, aber ich bekomme nichts in...
25.07.2013, 15:33