scrapy

Scrapy ist ein schnelles Open-Source-Scraping- und Web-Crawling-Framework auf hoher Ebene, das in Python geschrieben wurde und zum Crawlen von Websites und zum Extrahieren von strukturierten Daten auf ihren Seiten verwendet wird. Es kann für eine Vielzahl von Zwecken verwendet werden, vom Data Mining bis zum Monitoring und automatisierten Testen.
1
Antwort

Scrapy aus einer Django-Ansicht starten

Meine Erfahrung mit Scrapy ist begrenzt, und jedes Mal, wenn ich es benutze, geschieht es immer durch die Befehle des Terminals. Wie kann ich meine Formulardaten (eine URL, die abgekratzt werden soll) von meiner Django-Vorlage erhalten, um mit S...
14.11.2014, 02:20
2
Antworten

Kombinieren der Basis-URL mit dem resultierenden href in scrapy

unten ist mein Spinnencode, %Vor% Hier versuche ich, die href-Verbindung mit der Basisverbindung zu kombinieren, aber ich erhalte den folgenden Fehler, %Vor% Kann jemand mich wissen lassen, warum ich diesen Fehler bekomme und wie man Bas...
29.05.2012, 11:20
2
Antworten

Websocket Server mit twisted und Python, der komplexe Jobs im Hintergrund erledigt

Ich möchte einen Server programmieren, der Websocket-Clients handhabt, während mysql selects über sqlalchemy auswählt und mehrere Websites gleichzeitig scrapet (scrapy). Die empfangenen Daten müssen berechnet, in der Datenbank gespeichert und da...
06.06.2011, 09:53
1
Antwort

Einstellung der Scrapy-Proxy-Middleware, die bei jeder Anforderung gedreht wird

Diese Frage kommt notwendigerweise in zwei Formen, weil ich den besseren Weg zu einer Lösung nicht kenne. Eine Seite, die ich crawle, bringt mich oft zu einer umgeleiteten "User Blocked" Seite, aber die Häufigkeit (nach Anfragen / Zeit) schei...
26.12.2013, 22:35
1
Antwort

Verwenden von Middleware zum Ignorieren von Duplikaten in Scrapy

Ich bin Anfänger in Python und verwende Scrapy für ein Personal-Web-Projekt. Ich benutze Scrapy, um Daten von mehreren Websites wiederholt zu extrahieren, also muss ich jedes Crawling überprüfen, wenn ein Link bereits in der Datenbank vorhand...
09.04.2014, 13:09
2
Antworten

Scrapy-Pipeline kann nicht funktionieren

Ich habe Spinne, die ich mit dem Scrapy-Framework geschrieben habe. Ich habe Probleme, Pipelines zur Arbeit zu bringen. Ich habe den folgenden Code in meinem pipelines.py: %Vor% und meine CrawlSpider-Unterklasse hat diese Zeile, um die Pipel...
03.11.2010, 19:21
2
Antworten

ImportError: Kein Modul namens twisted.persisted.styles

Von IDLE habe ich versucht, ein Skript mit einer neu installierten scrapy 1.0.3 zu starten. Ich verwende ein Skript von einem Freund, für den es funktioniert (aber unter Windows bin ich auf einem Mac ). Beim Import von scrapy in der erste...
18.11.2015, 05:22
3
Antworten

Erfassen von http Statuscodes mit Scrapy Spider

Ich bin neu auf dem Schrottplatz. Ich schreibe eine Spinne, die entworfen wurde, um eine lange Liste von URLs auf die Serverstatuscodes und gegebenenfalls auf die URLs zu überprüfen, an die sie weitergeleitet werden. Wichtig ist, dass, wenn es e...
11.06.2012, 14:46
3
Antworten

Das einfachste Pipelinebeispiel kann nicht in scrapy arbeiten

Dies ist mein einfacher Code und ich bekomme es nicht funktionieren. Ich untergliedere von initspider Dies ist mein Code %Vor% Pipeline %Vor% Ich erhalte denselben Fehler, wenn ich versuche, das Element zu drucken Der Fehle...
15.12.2012, 09:19
1
Antwort

der beste Weg, um SQLite db cur und con zu schließen, wenn Daten in SQLite mit Pipelines geschrieben werden

quotes.py ist die Spider-Datei. %Vor% Der Autor und das Zitat auf jeder Seite wurden in Element extrahiert. Mit der folgenden Pipelines.py können Element ['author'] und Element ['quote'] in /tmp/test.sqlite geschrieben werden. %Vor%...
07.09.2017, 02:38