Scrapy Shell - So ändern Sie USER_AGENT

9

Ich habe ein voll funktionsfähiges Scrapy-Skript, um Daten von einer Website zu extrahieren. Während des Setups hat die Zielwebsite mich aufgrund meiner USER_AGENT-Informationen gesperrt. Ich habe anschließend eine RotateUserAgentMiddleware hinzugefügt, um das USER_AGENT nach dem Zufallsprinzip zu drehen. Das funktioniert großartig.

Wenn ich jetzt versuche, die scrapy-Shell zu verwenden, um xpath- und css-Anfragen zu testen, erhalte ich einen 403-Fehler. Ich bin mir sicher, das liegt daran, dass der USER_AGENT der Scrapy-Shell auf einen Wert gesetzt ist, den die Ziel-Site auf die Blacklist gesetzt hat.

Frage: Ist es möglich, eine URL in der Scrapy-Shell mit einem anderen USER_AGENT als dem Standardnamen abzurufen?

fetch (' Ссылка ') [etwas hinzufügen ?? USER_AGENT ändern]

Thx

    
dfriestedt 21.08.2014, 15:00
quelle

2 Antworten

22

scrapy shell -s USER_AGENT='custom user agent' 'http://www.example.com'

    
marven 22.08.2014, 01:15
quelle
2

Innerhalb der Scrapy-Shell können Sie User-Agent in request header festlegen.

%Vor%     
salman wahed 19.10.2016 15:57
quelle

Tags und Links