web-crawler

Ein Web-Crawler (auch bekannt als Webspider) ist ein Computerprogramm, das das World Wide Web methodisch, automatisiert oder geordnet durchsucht. Andere Begriffe für Web-Crawler sind Ameisen, automatische Indexer, Bots, Webspider, Webroboter oder - besonders in der FOAF-Community - Web-Scutter.
1
Antwort

Apache Nutch 2.1 verschiedene Batch-ID (null)

Ich crawle einige Websites mit Apache Nutch 2.1. Beim Crawlen sehe ich auf vielen Seiten folgende Meldung: Ex. Überspringen Ссылка ; unterschiedliche Batch-ID (null). Was verursacht diesen Fehler? Wie kann ich dieses Problem beheben, da...
12.02.2013, 08:33
0
Antworten

Nutch Probleme beim Ausführen von Crawl unter Windows

Ich versuche, nutch 1.11 zu kriegen. Ich benutze Cygwin, um diese Befehle in Windows 8 auszuführen. Ich habe hadoop-core jar in den lib-Ordner gestellt, aber wenn ich versuche, einen Crawl auszuführen, erhalte ich:    Ausnahme im Thread...
12.05.2016, 08:48
1
Antwort

Verhindern von Scrapy von URL-Codierungsanfragen-URLs

Ich möchte, dass Scrapy meine Anfragen nicht URL-codiert. Ich sehe, dass scrapy.http.Request scrapy.utils.url importiert, die w3lib.url importiert, die die Variable _ALWAYS_SAFE_BYTES enthält. Ich muss nur _ALWAYS_SAFE_BYTES eine Reihe von Zeich...
22.07.2014, 09:46
2
Antworten

crawl dynamische Webseite mit htmlunit

Ich crawle Daten mit HtmlUnit von einer dynamischen Webseite, die unendlich scrollt, um Daten dynamisch zu holen, genau wie der Newsfeed von Facebook. Ich habe den folgenden Satz verwendet, um das Herunterscrollen-Ereignis zu simulieren: %Vor%...
25.08.2012, 05:58
0
Antworten

Wie crawle ich ein DeepZoom-Bild vom IIPImage-Server?

Wie erhalten Sie alle Kacheln und Metadaten eines DeepZoom-Bildes, das auf einem IIPImage-Server gehostet wird? IIPImage unterstützt das IIP-Protokoll (nicht gut dokumentiert), MS DeepZoom und Zoomify     
04.08.2011, 23:41
4
Antworten

Wie unterscheiden sich Webspinnen von Wgets Spinne?

Der nächste Satz fiel mir in Wget's Manual auf. %Vor% Ich finde die folgenden Codezeilen für die Spider-Option in wget relevant. %Vor% Ich würde gerne die Unterschiede im Code sehen, nicht abstrakt. Ich liebe Codebeispiele. Wie unter...
17.04.2009, 21:14
2
Antworten

Kann ich WGET verwenden, um eine Sitemap einer Website mit ihrer URL zu erstellen?

Ich brauche ein Skript, das eine Website spidern und die Liste aller gecrawlten Seiten im Klartext oder in einem ähnlichen Format zurückgeben kann; was ich den Suchmaschinen als Sitemap übermitteln werde. Kann ich mit WGET eine Sitemap einer Web...
16.10.2010, 12:47
6
Antworten

Speichern von URLs beim Spidering

Ich habe einen kleinen Webspider in Python erstellt, mit dem ich URLs sammle. Der Inhalt interessiert mich nicht. Im Moment behalte ich alle besuchten URLs in einem Satz im Speicher, weil ich nicht möchte, dass meine Spinne URLs zweimal besucht....
11.04.2010, 02:19
1
Antwort

InvalidArgumentException: Die aktuelle Knotenliste ist leer. PHP-Spider (DOMCrawler Symfony)

Ich benutze PHP-Spider, um eine Website zu crawlen, aber wenn es keine .class findet, wird ein Fehler ausgegeben: InvalidArgumentException: Die aktuelle Knotenliste ist leer. Der Code ist dies: %Vor% auf einigen Seiten existiert die Klass...
17.03.2014, 00:37
1
Antwort

Crawler4j vs. Jsoup für die Seiten Crawlen und Parsen in Java

Ich möchte den Inhalt einer Seite erhalten und die spezifischen Teile daraus extrahieren. Soweit ich weiß, gibt es mindestens zwei Lösungen für diese Aufgabe: Crawler4j und Jsoup . Beide können den Inhalt einer Seite abrufen und Unterabsch...
19.01.2016, 22:55