Ein Web-Crawler (auch bekannt als Webspider) ist ein Computerprogramm, das das World Wide Web methodisch, automatisiert oder geordnet durchsucht. Andere Begriffe für Web-Crawler sind Ameisen, automatische Indexer, Bots, Webspider, Webroboter oder - besonders in der FOAF-Community - Web-Scutter.
Ich crawle einige Websites mit Apache Nutch 2.1.
Beim Crawlen sehe ich auf vielen Seiten folgende Meldung:
Ex. Überspringen Ссылка ; unterschiedliche Batch-ID (null).
Was verursacht diesen Fehler?
Wie kann ich dieses Problem beheben, da...
12.02.2013, 08:33
Ich versuche, nutch 1.11 zu kriegen. Ich benutze Cygwin, um diese Befehle in Windows 8 auszuführen.
Ich habe hadoop-core jar in den lib-Ordner gestellt, aber wenn ich versuche, einen Crawl auszuführen, erhalte ich:
Ausnahme im Thread...
12.05.2016, 08:48
Ich möchte, dass Scrapy meine Anfragen nicht URL-codiert. Ich sehe, dass scrapy.http.Request scrapy.utils.url importiert, die w3lib.url importiert, die die Variable _ALWAYS_SAFE_BYTES enthält. Ich muss nur _ALWAYS_SAFE_BYTES eine Reihe von Zeich...
22.07.2014, 09:46
Ich crawle Daten mit HtmlUnit von einer dynamischen Webseite, die unendlich scrollt, um Daten dynamisch zu holen, genau wie der Newsfeed von Facebook. Ich habe den folgenden Satz verwendet, um das Herunterscrollen-Ereignis zu simulieren:
%Vor%...
25.08.2012, 05:58
Wie erhalten Sie alle Kacheln und Metadaten eines DeepZoom-Bildes, das auf einem IIPImage-Server gehostet wird?
IIPImage unterstützt das IIP-Protokoll (nicht gut dokumentiert), MS DeepZoom und Zoomify
04.08.2011, 23:41
Der nächste Satz fiel mir in Wget's Manual auf.
%Vor%
Ich finde die folgenden Codezeilen für die Spider-Option in wget relevant.
%Vor%
Ich würde gerne die Unterschiede im Code sehen, nicht abstrakt. Ich liebe Codebeispiele.
Wie unter...
17.04.2009, 21:14
Ich brauche ein Skript, das eine Website spidern und die Liste aller gecrawlten Seiten im Klartext oder in einem ähnlichen Format zurückgeben kann; was ich den Suchmaschinen als Sitemap übermitteln werde. Kann ich mit WGET eine Sitemap einer Web...
16.10.2010, 12:47
Ich habe einen kleinen Webspider in Python erstellt, mit dem ich URLs sammle. Der Inhalt interessiert mich nicht. Im Moment behalte ich alle besuchten URLs in einem Satz im Speicher, weil ich nicht möchte, dass meine Spinne URLs zweimal besucht....
11.04.2010, 02:19
Ich benutze PHP-Spider, um eine Website zu crawlen, aber wenn es keine .class findet, wird ein Fehler ausgegeben:
InvalidArgumentException: Die aktuelle Knotenliste ist leer.
Der Code ist dies:
%Vor%
auf einigen Seiten existiert die Klass...
17.03.2014, 00:37
Ich möchte den Inhalt einer Seite erhalten und die spezifischen Teile daraus extrahieren. Soweit ich weiß, gibt es mindestens zwei Lösungen für diese Aufgabe: Crawler4j und Jsoup .
Beide können den Inhalt einer Seite abrufen und Unterabsch...
19.01.2016, 22:55