Ich benutze Scrapy, um einige Seiten zu crawlen. Ich hole die start_urls von einem Excel-Blatt und ich muss die URL in dem Element speichern.
%Vor%Das Problem ist, dass die URL auf eine andere URL umgeleitet wird (und somit etwas anderes in der Antwort-URL gibt). Wie bekomme ich die Original-URL, die ich vom Excel bekommen habe?
Sie finden was Sie brauchen in response.request.meta['redirect_urls']
.
Zitat aus Dokumentation :
Die URLs, die die Anfrage durchläuft (während sie umgeleitet wird) können finden Sie im Schlüssel redirect_urls Request.meta.
Ich hoffe, das hilft.
Tags und Links python redirect web-scraping scrapy