Crawl-Links von sitemap.xml über den Befehl wget

8

Ich versuche, alle Links einer sitemap.xml zu crawlen, um eine Website erneut zu cachen. Aber die rekursive Option von wget funktioniert nicht, ich bekomme nur als Antwort:

  

Die Remote-Datei existiert, enthält jedoch keine Verknüpfung - sie wird nicht abgerufen.

Aber sicher ist die Sitemap.xml voll von "http: // ..." Links.

Ich habe fast jede Option von wget ausprobiert, aber nichts hat für mich funktioniert:

%Vor%

Weiß jemand, wie man alle Links innerhalb einer Website sitemap.xml öffnet?

Danke, Dominik

    
dohomi 27.06.2013, 03:37
quelle

1 Antwort

10

Es scheint, dass wget XML nicht analysieren kann. Also müssen Sie die Links manuell extrahieren. Sie könnten so etwas tun:

%Vor%

Ich habe diesen Trick hier .

    
nmrugg 02.01.2014 13:35
quelle

Tags und Links