Ein Web-Crawler (auch bekannt als Webspider) ist ein Computerprogramm, das das World Wide Web methodisch, automatisiert oder geordnet durchsucht. Andere Begriffe für Web-Crawler sind Ameisen, automatische Indexer, Bots, Webspider, Webroboter oder - besonders in der FOAF-Community - Web-Scutter.
Ich habe Spinne, die ich mit dem Scrapy-Framework geschrieben habe. Ich habe Probleme, Pipelines zur Arbeit zu bringen. Ich habe den folgenden Code in meinem pipelines.py:
%Vor%
und meine CrawlSpider-Unterklasse hat diese Zeile, um die Pipel...
03.11.2010, 19:21
Ich möchte eine Website mit Greasemonkey crawlen und mich fragen, ob es eine bessere Möglichkeit gibt, Werte vorübergehend zu speichern als mit GM_setValue.
Ich möchte meine Kontakte in einem sozialen Netzwerk crawlen und die Twitter-URLs von...
28.01.2009, 14:23
Ich habe eine Frage zum HTML-Parsing. Ich habe eine Website mit einigen Produkten und möchte Text innerhalb einer Seite in meine aktuelle Tabelle einfangen. Diese Tabelle ist ziemlich groß, aber enthält ItemNbr in der dritten Spalte, ich erwarte...
25.08.2014, 14:53
Unter Verwendung von JSoup einschließlich der letzten Version 1.7.2 gibt es einen Bug, der ungültiges HTML mit nicht geschlossenen Tags analysiert.
Beispiel:
%Vor%
Das Dokument, das erzeugt wird, ist:
%Vor%
Die Browser würden etwa...
04.04.2013, 14:17
Wie funktioniert die HttpBrowserCapabilities.Crawler-Eigenschaft ( Ссылка )? Ich muss den benutzerdefinierten Crawler eines Partners erkennen, und diese Eigenschaft gibt false zurück.
Wo / Wie kann ich seinen Benutzeragenten hinzufügen, damit...
21.10.2008, 16:37
Gibt es eine Möglichkeit, alle Posts für ein bestimmtes Subreddit zu erhalten, anstatt nur die Posts, die neuer als ein Monat sind?
Zum Beispiel ist dies die "letzte" Seite der Beiträge von IAmA subreddit, die wir erreichen können,
18.09.2013, 20:35
Ich recherchiere gerade, welche Datenbank ich für ein Projekt verwende, an dem ich gerade arbeite. Hoffentlich könnt ihr mir ein paar Tipps geben.
Das Projekt ist ein automatisierter Webcrawler, der Websites gemäß einer Benutzeranforderung üb...
12.08.2012, 07:35
Gegebene einige zufällige Nachrichten
04.01.2013, 20:21
Im Grunde versuche ich etwas Code (Python 2.7) auszuführen, wenn sich der Inhalt auf einer Website ändert, ansonsten warte etwas und überprüfe es später.
Ich denke daran, Hashes zu vergleichen. Das Problem dabei ist, dass wenn die Seite ein...
04.11.2015, 07:38
Ich würde gerne in der Lage sein, relativ aktuelle statische HTML-Dateien aus der enormen (auch komprimierten) englischen Wikipedia-XML-Dump-Datei zu erhalten enwiki-neueste-seiten-artikel.xml.bz2 Ich habe von der WikiMedia-Dump-Seite . Es sc...
23.05.2012, 04:12