Verwenden von wget, ignoriert aber URL-Parameter

8

Ich möchte den Inhalt einer Website herunterladen, auf der die URLs als

erstellt werden

Ссылка

Innerhalb der URL ist nur Ссылка für jede Seite eindeutig und die Werte für Option1 und Option2 ändern sich. Tatsächlich kann jede einzelne Seite aufgrund dieser Variablen Hunderte verschiedener Notationen enthalten. Ich verwende wget, um den gesamten Inhalt der Seite zu holen. Wegen des Problems habe ich bereits mehr als 3GB Daten heruntergeladen. Gibt es eine Möglichkeit, wget zu sagen, alles hinter dem Fragezeichen der URL zu ignorieren? Ich kann es nicht in den Manpages finden.

    
cootje 04.11.2014, 13:19
quelle

2 Antworten

7

Sie können --reject-regex verwenden, um das Muster anzugeben, um die spezifischen URL-Adressen abzulehnen, z. B.

%Vor%

Dies wird die Website spiegeln, aber die Adressen mit Fragezeichen ignorieren - nützlich für die Spiegelung von Wiki-Seiten.

    
kenorb 23.07.2016 15:45
quelle
0

Problem gelöst. Ich habe festgestellt, dass die URLs, die ich herunterladen möchte, alle suchmaschinenfreundlich sind, wobei die Beschreibungen mit einem Bindestrich erstellt wurden:

Ссылка

Alle anderen URLs hatten Verweise auf den CMS. Ich habe alles, was ich brauche mit

%Vor%

Das hat den Trick gemacht. Danke für den Gedankenaustausch!

    
cootje 04.11.2014 15:17
quelle

Tags und Links