Ein Web-Crawler (auch bekannt als Webspider) ist ein Computerprogramm, das das World Wide Web methodisch, automatisiert oder geordnet durchsucht. Andere Begriffe für Web-Crawler sind Ameisen, automatische Indexer, Bots, Webspider, Webroboter oder - besonders in der FOAF-Community - Web-Scutter.
Ich habe:
domain.com
testing.domain.com
Ich möchte, dass domain.com von Suchmaschinen gecrawlt und indiziert wird, aber nicht testing.domain.com
Die Testdomäne und die Hauptdomäne teilen sich dasselbe SVN-Repository, daher bin ich mi...
18.07.2011, 20:18
Ich versuche, die Bewertungen der Nutzer von Kinofilmen von imdb von der Bewertungsseite zu crawlen:
(Anzahl der Filme in meiner Datenbank ist etwa 600.000). Ich benutzte jsoup, um Seiten wie unten zu analysieren: (Entschuldigung, ich habe den g...
18.02.2014, 15:49
Ich mache einige Funktionstests für eine Anwendung, die mit Symfony2 (2.1) durchgeführt wurde und ich habe ein Problem.
Ich habe einige Teile der Website, die geladen werden, wenn der Benutzer auf einen Link oder ein anderes Element klickt, a...
26.04.2013, 16:00
Ich möchte eine einfache Webspinne schreiben oder einfach wget verwenden, um pdf-Ergebnisse von Google scholar herunterzuladen. Das wäre eigentlich ein ziemlich schicker Weg, um Papiere für die Forschung zu bekommen.
Ich habe die folgenden...
04.09.2012, 23:03
Nach mehreren Lesungen in Scrapy-Dokumenten merke ich immer noch nicht den Unterschied zwischen der Verwendung von CrawlSpider-Regeln und der Implementierung eines eigenen Link-Extraktionsmechanismus für die Callback-Methode.
Ich bin dabei, e...
06.07.2011, 03:27
Beide Middleware kann Request und Response verarbeiten. Aber was ist der Unterschied?
26.07.2013, 04:10
Ich versuche, alle Links einer sitemap.xml zu crawlen, um eine Website erneut zu cachen. Aber die rekursive Option von wget funktioniert nicht, ich bekomme nur als Antwort:
Die Remote-Datei existiert, enthält jedoch keine Verknüpfung - sie...
27.06.2013, 03:37
Ich habe eine URL mit Nutch 2.1 gecrawlt und möchte dann die Seiten neu crawlen, nachdem sie aktualisiert wurden. Wie kann ich das machen? Wie kann ich wissen, dass eine Seite aktualisiert wurde?
10.01.2013, 15:40
Ich habe einen einfachen Web-Crawler, um alle Seiten von der Sitemap einer Website anzufordern, die ich cachen und indizieren muss. Nach mehreren Anfragen beginnt die Website mit dem Versenden leerer Seiten.
Es gibt nichts in ihrem robots.tx...
28.04.2009, 16:02
Ich habe alles versucht, um das max_execution_time eines PHP-Crawlerskriptes zu ändern, so dass es unendlich viel Zeit dauern kann.
Ich habe die php.ini-Dateieinstellung max_execution_time auf 0 oder 100000000 geändert, aber ohne...
01.07.2012, 18:44