Wie bekomme ich die originale start_url in scrapy (vor der Weiterleitung)

Question

Wie bekomme ich die originale start_url in scrapy (vor der Weiterleitung)

8

Ich benutze Scrapy, um einige Seiten zu crawlen. Ich hole die start_urls von einem Excel-Blatt und ich muss die URL in dem Element speichern.

%Vor%

Das Problem ist, dass die URL auf eine andere URL umgeleitet wird (und somit etwas anderes in der Antwort-URL gibt). Wie bekomme ich die Original-URL, die ich vom Excel bekommen habe?

python redirect web-scraping scrapy

user_2000 30.05.2013, 18:07

quelle

1 Antwort

Tags und Links python redirect web-scraping scrapy

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Git (1.8.1.2) Fehler beim interaktiven Hinzufügen

score 16 · Accepted Answer

Sie finden was Sie brauchen in response.request.meta['redirect_urls'] .

Zitat aus Dokumentation :

Die URLs, die die Anfrage durchläuft (während sie umgeleitet wird) können finden Sie im Schlüssel redirect_urls Request.meta.

Ich hoffe, das hilft.