web-crawler

Ein Web-Crawler (auch bekannt als Webspider) ist ein Computerprogramm, das das World Wide Web methodisch, automatisiert oder geordnet durchsucht. Andere Begriffe für Web-Crawler sind Ameisen, automatische Indexer, Bots, Webspider, Webroboter oder - besonders in der FOAF-Community - Web-Scutter.
1
Antwort

Werden benutzerfreundliche URLs automatisch von Google verarbeitet?

Ich habe ein benutzerfreundliches URL-System, genau wie Stack Overflow. Also /car/123/blue-subaru-1993 ist ein Link. Da Benutzer jedoch die Möglichkeit haben, den Titel des Eintrags zu ändern, könnte das bald so aussehen: %Vor% Ich...
02.02.2013, 06:03
1
Antwort

Google SEO und _escaped_fragment_ im Hinblick auf die Crawling-Änderungen von Google

Google hat gerade abgeschlossen (ich habe gerade gesehen, dass die Seite vor mir aktualisiert wird) JavaScript-Indexierung. Was cool ist, da ich nicht mehr all meine Werkzeuge dafür brauche. Google wird nun JavaScript ausführen - das SEO-JavaScr...
27.05.2014, 14:00
3
Antworten

Scrapy - Wählen Sie einen bestimmten Link basierend auf Text

Das sollte einfach sein, aber ich stecke fest. %Vor% Ich versuche Scrapy (Basespider) zu verwenden, um einen Link basierend auf seinem Link-Text auszuwählen: %Vor% Ich möchte zum Beispiel den Link der nächsten Seite auswählen, basierend...
27.08.2012, 15:37
5
Antworten

Wie kann Twitter-Tweet-Information ohne OAuth-Authentifizierung gecrawlt werden?

Ich bin gezwungen, Twitter zu crawlen und die Tweets zu analysieren. Ich dachte mir, der beste Weg wäre, die Such-API zu verwenden, aber anscheinend benötigt die API die OAuth-Authentifizierung. Wäre die Registrierung als Entwickler der einzige...
22.12.2010, 11:12
4
Antworten

Einfacher Webcrawler in C #

Ich habe einen einfachen Web-Crawler erstellt, aber ich möchte die Rekursionsfunktion hinzufügen, so dass jede Seite, die geöffnet wird, die URLs auf dieser Seite bekommen kann, aber ich habe keine Ahnung, wie ich das machen kann und auch aufneh...
04.05.2012, 16:32
2
Antworten

Asp.net Request.Browser.Crawler - Dynamische Crawler Liste?

Ich habe gelernt Warum Request.Browser.Crawler in C # immer falsch ist ( Ссылка ). Verwendet jemand eine Methode, um die Crawler-Liste dynamisch zu aktualisieren, so dass Request.Browser.Crawler wirklich nützlich sein wird?     
10.01.2009, 21:10
3
Antworten

Selenium wartet darauf, dass Ajax-Inhalt geladen wird - universeller Ansatz

Gibt es einen universellen Ansatz für Selenium zu warten, bis alle Ajax-Inhalte geladen sind? (nicht an eine bestimmte Website gebunden - so funktioniert es für jede Ajax-Website)     
26.10.2015, 14:44
6
Antworten

Schneller Internet-Crawler

Ich möchte Data Mining in großem Umfang durchführen. Dafür brauche ich einen schnellen Crawler. Alles, was ich brauche, ist etwas, um eine Webseite herunterzuladen, Links zu extrahieren und ihnen rekursiv zu folgen, aber ohne die gleiche URL zwe...
04.10.2011, 19:51
4
Antworten

Haben Sie bereits Ergebnisse von nutch crawl mit elasticsearch indiziert?

Hat jemand Glück gehabt, benutzerdefinierte Indexer für nutch zu schreiben, um die Crawl-Ergebnisse mit elasticsearch zu indexieren? Oder kennen Sie schon existierende?     
15.05.2011, 23:58
2
Antworten

Einen Link komplett unsichtbar machen?

Ich bin mir ziemlich sicher, dass viele Leute daran gedacht haben, aber aus irgendeinem Grund kann ich sie nicht mit der Google- und StackOverflow-Suche finden. Ich möchte einen unsichtbaren Link (auf der schwarzen Liste von robots.txt) zu ei...
05.09.2010, 22:40