Verwenden von wget, ignoriert aber URL-Parameter

Question

Verwenden von wget, ignoriert aber URL-Parameter

8

Ich möchte den Inhalt einer Website herunterladen, auf der die URLs als

erstellt werden

Innerhalb der URL ist nur Ссылка für jede Seite eindeutig und die Werte für Option1 und Option2 ändern sich. Tatsächlich kann jede einzelne Seite aufgrund dieser Variablen Hunderte verschiedener Notationen enthalten. Ich verwende wget, um den gesamten Inhalt der Seite zu holen. Wegen des Problems habe ich bereits mehr als 3GB Daten heruntergeladen. Gibt es eine Möglichkeit, wget zu sagen, alles hinter dem Fragezeichen der URL zu ignorieren? Ich kann es nicht in den Manpages finden.

linux wget

cootje 04.11.2014, 13:19

quelle

2 Antworten

Tags und Links linux wget

Django: Verwenden von Annotate, Count und Distinct in einem Queryset veranlasst voiceXML, das vom Server zurückgegebene Ergebnis zu lesen

score 7 · Answer 1

7

Sie können --reject-regex verwenden, um das Muster anzugeben, um die spezifischen URL-Adressen abzulehnen, z. B.

%Vor%

Dies wird die Website spiegeln, aber die Adressen mit Fragezeichen ignorieren - nützlich für die Spiegelung von Wiki-Seiten.

kenorb 23.07.2016 15:45

quelle

score 0 · Answer 2

Problem gelöst. Ich habe festgestellt, dass die URLs, die ich herunterladen möchte, alle suchmaschinenfreundlich sind, wobei die Beschreibungen mit einem Bindestrich erstellt wurden:

Ссылка

Alle anderen URLs hatten Verweise auf den CMS. Ich habe alles, was ich brauche mit

%Vor%

Das hat den Trick gemacht. Danke für den Gedankenaustausch!