scrapy, Seitenzahl 4

Scrapy ist ein schnelles Open-Source-Scraping- und Web-Crawling-Framework auf hoher Ebene, das in Python geschrieben wurde und zum Crawlen von Websites und zum Extrahieren von strukturierten Daten auf ihren Seiten verwendet wird. Es kann für eine Vielzahl von Zwecken verwendet werden, vom Data Mining bis zum Monitoring und automatisierten Testen.

Antworten

Speichern des Django-Modells aus dem Scrapy-Projekt

Ich habe ein Scrapy-Projekt und versuche, die Ausgabeobjekte als Objekt aus einer Django-Modelldefinition zu speichern (ich verwende kein DjangoItem). Ich importiere Django-Einstellungen wie angegeben hier . %Vor% In meinem Scrapy-Projek...

24.10.2011, 23:41

Antworten

Kann weder Scrapys Einstellungsmodul noch seine scrapy.cfg importieren

Das ist ein ziemlich langer Post, aber nach umfangreicher Recherche konnte ich keine Lösung finden. Ich habe ein gemischtes Django 1.4.1 / Scrapy 0.14.4 Projekt auf OSX 10.8 und ich kontrolliere Scrapy mit dem manage.py Befehl des Django Proj...

31.08.2012, 20:14

Antworten

Python scrapy ReactorNotRestartable Ersatz

Ich habe versucht, eine App in Python mit Scrapy zu erstellen, die die folgende Funktionalität hat: Ein rest api (ich hatte das mit flask gemacht) hört alle Anfragen zum Crawlen / Verwerfen ab und gibt die Antwort nach dem Crawlen zur...

11.09.2016, 08:52

Antworten

Mac OS X El Capitan - Scrapy / Python ImportError: Name xmlrpc_client kann nicht importiert werden

Ich versuche Scrapy unter Mac OS X El Capitan zu benutzen. Ich habe zsh installiert und ich habe alles versucht, was ich online finden konnte, um dieses Problem zu beheben. Ich habe auch auf Scrapy geworfen. ImportError: kann den Namen xmlrpc_c...

26.11.2015, 01:22

Antwort

Python, das schnell Verzeichnisse erstellt und entfernt, verursacht WindowsError [Error 5] zeitweise

Ich habe dieses Problem bei der Verwendung von Scrapys FifoDiskQueue festgestellt. In Windows bewirkt FifoDiskQueue , dass Verzeichnisse und Dateien von einem Dateideskriptor erstellt und von einem anderen Dateideskriptor konsumiert (und we...

27.08.2015, 07:29

Antwort

Verhindern von Scrapy von URL-Codierungsanfragen-URLs

Ich möchte, dass Scrapy meine Anfragen nicht URL-codiert. Ich sehe, dass scrapy.http.Request scrapy.utils.url importiert, die w3lib.url importiert, die die Variable _ALWAYS_SAFE_BYTES enthält. Ich muss nur _ALWAYS_SAFE_BYTES eine Reihe von Zeich...

22.07.2014, 09:46

Antworten

Wie wird eine Verbindung zur https-Site mit Scrapy über Polipo über TOR hergestellt?

Nicht ganz sicher, was das Problem hier ist. Ausführen von Python 2.7.3 und Scrapy 0.16.5 Ich habe einen sehr einfachen Scrapy-Spider erstellt, um die Verbindung zu meinem lokalen Polipro-Proxy zu testen, damit ich Anfragen über TOR senden...

23.07.2013, 20:51

Antworten

scrapy wie man die Referer URL setzt

Ich muss die URL des Referrers setzen, bevor ich eine Site scrape, verwendet die Site URL-basierte Authentifizierung, so dass ich mich nicht einloggen kann, wenn der Referer ungültig ist. Kann jemand sagen, wie man das in Scrapy macht?

25.10.2012, 13:36

Antworten

Scrapy Shell - So ändern Sie USER_AGENT

Ich habe ein voll funktionsfähiges Scrapy-Skript, um Daten von einer Website zu extrahieren. Während des Setups hat die Zielwebsite mich aufgrund meiner USER_AGENT-Informationen gesperrt. Ich habe anschließend eine RotateUserAgentMiddleware hinz...

21.08.2014, 15:00

Antworten

Installieren von Paketabhängigkeiten für Scrapy

Unter den vielen Paketen, die Benutzer für Scrapy installieren müssen, habe ich Probleme mit pyOpenSSL. Wenn ich versuche, ein Tutorial Scrapy-Projekt zu erstellen, bekomme ich folgende Ausgabe: %Vor% Und als ich diesen letzten Fehler goo...

21.06.2014, 06:10