Wenn Sie den Referer in Ihrer Spider-Anfrage ändern möchten, können Sie DEFAULT_REQUEST_HEADERS in der Datei settings.py
ändernBeispiel:
DEFAULT_REQUEST_HEADERS = {
'Referer': 'http://www.google.com'
}
Sie sollten genau das tun, was @warwaruk angegeben hat, unten ist meine Beispiel-Ausarbeitung für eine Crawl-Spinne:
%Vor%Dies sollte folgende Protokolle in Ihrem Terminal generieren:
%Vor%Funktioniert gleich mit BaseSpider. Am Ende ist die start_requests-Methode die BaseSpider-Methode, von der CrawlSpider von. Erbt.
Dokumentation erläutert weitere Optionen, die in "Anfrage" festgelegt werden können B.: Cookies, Rückruffunktion, Priorität der Anfrage usw.
Überschreiben Sie BaseSpider.start_requests
und erstellen Sie dort Ihre eigenen Daten Bitte übergeben Sie Ihre Kopfzeile referer
.
Setzen Sie Referer URL in den Request-Headern
class scrapy.http.Request(url[, method='GET', body, headers, ...
headers (dict) – the headers of this request. The dict values can be strings (for single valued headers) or lists (for multi-valued headers).
Beispiel:
return Request(url=your_url,
headers={'Referer':'http://your_referer_url'})
Tags und Links screen-scraping scrapy