Crawl-Links von sitemap.xml über den Befehl wget

Question

Crawl-Links von sitemap.xml über den Befehl wget

8

Ich versuche, alle Links einer sitemap.xml zu crawlen, um eine Website erneut zu cachen. Aber die rekursive Option von wget funktioniert nicht, ich bekomme nur als Antwort:

Die Remote-Datei existiert, enthält jedoch keine Verknüpfung - sie wird nicht abgerufen.

Aber sicher ist die Sitemap.xml voll von "http: // ..." Links.

Ich habe fast jede Option von wget ausprobiert, aber nichts hat für mich funktioniert:

%Vor%

Weiß jemand, wie man alle Links innerhalb einer Website sitemap.xml öffnet?

Danke, Dominik

web-crawler wget sitemap.xml

dohomi 27.06.2013, 03:37

quelle

1 Antwort

Tags und Links web-crawler wget sitemap.xml

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Optimierung der bitweisen Operationen in C

score 10 · Answer 1

10

Es scheint, dass wget XML nicht analysieren kann. Also müssen Sie die Links manuell extrahieren. Sie könnten so etwas tun:

%Vor%

Ich habe diesen Trick hier .

nmrugg 02.01.2014 13:35

quelle