Ich möchte eine einfache Webspinne schreiben oder einfach wget
verwenden, um pdf-Ergebnisse von Google scholar herunterzuladen. Das wäre eigentlich ein ziemlich schicker Weg, um Papiere für die Forschung zu bekommen.
Ich habe die folgenden Seiten auf stackoverflow gelesen:
Website mit wget crawlen und die Gesamtzahl der gecrawlten Links begrenzen
Wie unterscheiden sich Webspider von Wgets Spinne?
Herunterladen aller PDF-Dateien von einer Website
Wie werden alle Dateien (aber nicht HTML) von einer Website mit wget heruntergeladen?
Die letzte Seite ist wahrscheinlich die inspirierendste von allen. Ich habe versucht, wget
wie auf dies vorgeschlagen.
Meine Google-Suchergebnisseite ist also , aber nichts wurde heruntergeladen.
Da mein Verständnis von Webspiders minimal ist, was sollte ich tun, um dies zu ermöglichen? Ich weiß, dass das Schreiben einer Spinne vielleicht sehr involviert ist und ein Projekt ist, das ich vielleicht nicht übernehmen möchte. Wenn es möglich ist, wget
zu verwenden, wäre das absolut fantastisch.
Ein paar Dinge zu beachten:
Die Einschränkung ist natürlich, dass dies nur die erste Seite der Ergebnisse trifft. Sie könnten die Tiefe der Rekursion erweitern, aber dies wird wild und dauert ewig. Ich würde empfehlen, eine Kombination aus etwas wie Beautiful Soup und wget-Unterprozessen zu verwenden, damit Sie die Suchergebnisse parsen und durchsuchen können strategisch.
Tags und Links web-crawler wget unix