Herunterladen aller PDF-Dateien von Google Scholar Suchergebnissen mit wget

8

Ich möchte eine einfache Webspinne schreiben oder einfach wget verwenden, um pdf-Ergebnisse von Google scholar herunterzuladen. Das wäre eigentlich ein ziemlich schicker Weg, um Papiere für die Forschung zu bekommen.

Ich habe die folgenden Seiten auf stackoverflow gelesen:

Website mit wget crawlen und die Gesamtzahl der gecrawlten Links begrenzen

Wie unterscheiden sich Webspider von Wgets Spinne?

Herunterladen aller PDF-Dateien von einer Website

Wie werden alle Dateien (aber nicht HTML) von einer Website mit wget heruntergeladen?

Die letzte Seite ist wahrscheinlich die inspirierendste von allen. Ich habe versucht, wget wie auf dies vorgeschlagen.

Meine Google-Suchergebnisseite ist also , aber nichts wurde heruntergeladen.

Da mein Verständnis von Webspiders minimal ist, was sollte ich tun, um dies zu ermöglichen? Ich weiß, dass das Schreiben einer Spinne vielleicht sehr involviert ist und ein Projekt ist, das ich vielleicht nicht übernehmen möchte. Wenn es möglich ist, wget zu verwenden, wäre das absolut fantastisch.

    
drN 04.09.2012, 23:03
quelle

1 Antwort

11
%Vor%

Ein paar Dinge zu beachten:

  1. Verwendung von filetyle: pdf in der Suchanfrage
  2. Eine Rekursionsebene
  3. -A PDF für die Annahme von PDFs
  4. -H um Hosts zu überspannen
  5. -e robots = aus und die Verwendung von --user-agent sorgt für beste Ergebnisse. Google Scholar lehnt einen leeren Benutzeragenten ab, und in PDF-Repositorys werden Roboter wahrscheinlich nicht zugelassen.

Die Einschränkung ist natürlich, dass dies nur die erste Seite der Ergebnisse trifft. Sie könnten die Tiefe der Rekursion erweitern, aber dies wird wild und dauert ewig. Ich würde empfehlen, eine Kombination aus etwas wie Beautiful Soup und wget-Unterprozessen zu verwenden, damit Sie die Suchergebnisse parsen und durchsuchen können strategisch.

    
dongle 05.09.2012, 12:24
quelle

Tags und Links