web-crawler

Ein Web-Crawler (auch bekannt als Webspider) ist ein Computerprogramm, das das World Wide Web methodisch, automatisiert oder geordnet durchsucht. Andere Begriffe für Web-Crawler sind Ameisen, automatische Indexer, Bots, Webspider, Webroboter oder - besonders in der FOAF-Community - Web-Scutter.
2
Antworten

Ausschließen des Testens der Subdomäne durch Suchmaschinen (mit SVN-Repository)

Ich habe: domain.com testing.domain.com Ich möchte, dass domain.com von Suchmaschinen gecrawlt und indiziert wird, aber nicht testing.domain.com Die Testdomäne und die Hauptdomäne teilen sich dasselbe SVN-Repository, daher bin ich mi...
18.07.2011, 20:18
1
Antwort

wie man die HTTP-Fehler-URL korrigiert. Status = 500 in Java beim Crawlen?

Ich versuche, die Bewertungen der Nutzer von Kinofilmen von imdb von der Bewertungsseite zu crawlen: (Anzahl der Filme in meiner Datenbank ist etwa 600.000). Ich benutzte jsoup, um Seiten wie unten zu analysieren: (Entschuldigung, ich habe den g...
18.02.2014, 15:49
3
Antworten

Symfony2 Functional Testing - Klicken Sie auf Elemente mit jQuery-Interaktion

Ich mache einige Funktionstests für eine Anwendung, die mit Symfony2 (2.1) durchgeführt wurde und ich habe ein Problem. Ich habe einige Teile der Website, die geladen werden, wenn der Benutzer auf einen Link oder ein anderes Element klickt, a...
26.04.2013, 16:00
1
Antwort

Herunterladen aller PDF-Dateien von Google Scholar Suchergebnissen mit wget

Ich möchte eine einfache Webspinne schreiben oder einfach wget verwenden, um pdf-Ergebnisse von Google scholar herunterzuladen. Das wäre eigentlich ein ziemlich schicker Weg, um Papiere für die Forschung zu bekommen. Ich habe die folgenden...
04.09.2012, 23:03
2
Antworten

Folgende Links, Scrapy Web Crawler Framework

Nach mehreren Lesungen in Scrapy-Dokumenten merke ich immer noch nicht den Unterschied zwischen der Verwendung von CrawlSpider-Regeln und der Implementierung eines eigenen Link-Extraktionsmechanismus für die Callback-Methode. Ich bin dabei, e...
06.07.2011, 03:27
1
Antwort

Was ist der Unterschied zwischen der Scrapy-Spider-Middleware und der Downloader-Middleware? [geschlossen]

Beide Middleware kann Request und Response verarbeiten. Aber was ist der Unterschied?     
26.07.2013, 04:10
1
Antwort

Crawl-Links von sitemap.xml über den Befehl wget

Ich versuche, alle Links einer sitemap.xml zu crawlen, um eine Website erneut zu cachen. Aber die rekursive Option von wget funktioniert nicht, ich bekomme nur als Antwort:    Die Remote-Datei existiert, enthält jedoch keine Verknüpfung - sie...
27.06.2013, 03:37
3
Antworten

URL mit Nutch nur für aktualisierte Websites neu crawlen

Ich habe eine URL mit Nutch 2.1 gecrawlt und möchte dann die Seiten neu crawlen, nachdem sie aktualisiert wurden. Wie kann ich das machen? Wie kann ich wissen, dass eine Seite aktualisiert wurde?     
10.01.2013, 15:40
2
Antworten

Richtige Etikette für einen Web-Crawler http Anfragen

Ich habe einen einfachen Web-Crawler, um alle Seiten von der Sitemap einer Website anzufordern, die ich cachen und indizieren muss. Nach mehreren Anfragen beginnt die Website mit dem Versenden leerer Seiten. Es gibt nichts in ihrem robots.tx...
28.04.2009, 16:02
11
Antworten

PHP- kann max_execution_time in xampp nicht ändern

Ich habe alles versucht, um das max_execution_time eines PHP-Crawlerskriptes zu ändern, so dass es unendlich viel Zeit dauern kann. Ich habe die php.ini-Dateieinstellung max_execution_time auf 0 oder 100000000 geändert, aber ohne...
01.07.2012, 18:44