Unter Ubuntu versuche ich eine Datei (aus einem Skript) mit wget herunterzuladen. Erstellen eines Programms, um diese Datei jeden Tag herunterzuladen und in einen Hadoop-Cluster zu laden.
jedoch schlägt das wget mit der folgenden Nachricht fehl.
%Vor%Wenn ich die gleiche URL in Firefox oder gleichwertigem versuche, funktioniert es gut. Und ja, es gibt keinerlei Lizenzvereinbarung ...
Fehle ich etwas Grundlegendes bezüglich wget ??
Die Site blockiert wget, weil wget standardmäßig einen ungewöhnlichen Benutzeragenten verwendet. Um einen anderen Benutzeragenten in wget zu verwenden, versuchen Sie:
%Vor%Eine andere Technik, die von Webapps oder Webservern verwendet wird, besteht darin, den Inhalt des Headers "Referrer" zu überprüfen. Zusätzlich zur Angabe des Benutzeragenten muss möglicherweise die Referrer-URL angegeben werden.
z.B.
%Vor%Dieser Host scheint Anforderungen für die Zieldatei abzulehnen, wenn sie nicht während der Navigation von der Seite 'Scenery1.html' vorgenommen wurden.
Einige Websites verhindern einfach, dass wget user-agent Dateien herunterlädt wget -U 'Mozilla / 5.0 (X11; U; Linux i686; de-DE; rv: 1.8.1.6) Gecko / 20070802 SeaMonkey / 1.1.4' Ссылка
Tags und Links ubuntu