Mit R können Sie Cookies akzeptieren, um eine PDF-Datei herunterzuladen

Question

Mit R können Sie Cookies akzeptieren, um eine PDF-Datei herunterzuladen

8

Ich bleibe bei Cookies stecken, wenn ich versuche, ein PDF herunterzuladen.

Wenn ich zum Beispiel ein DOI für ein PDF-Dokument im Archäologie-Datendienst habe, wird es auf Diese Zielseite mit einem eingebetteten Link darin zu dieser pdf aber was wirklich zu diesem anderen Link weiterleitet.

library(httr) kümmert sich um die Auflösung des DOI und wir können die PDF-URL von der Zielseite mit library(XML) extrahieren, aber ich bin dabei, das PDF selbst zu holen.

Wenn ich das tue:

%Vor%

Dann erhalte ich eine HTML-Datei, die mit Ссылка

übereinstimmt

Versuchen Sie die Antwort unter Wie verwende ich R, um eine gezippte Datei von einer SSL-Seite herunterzuladen, die Cookies erfordert führt mich dazu:

%Vor%

Aber nach den Funktionen POST und GET erhalte ich einfach den HTML-Code derselben Cookie-Seite, die ich mit download.file :

erhalten habe %Vor%

Mit Blick auf Ссылка scheint die Cookie-Situation auf dieser Seite kompliziert zu sein. Es scheint, als ob diese Art von Cookie-Komplexität für britische Datenanbieter nicht ungewöhnlich ist: Automatisierung der Anmeldung bei der britischen Datendienst-Website in R mit RCurl oder HTR

Wie kann ich mit R die Cookies auf dieser Website umgehen?

r curl web-scraping httr

Ben 06.01.2016, 00:40

quelle

2 Antworten

3

Diese Antwort kam von John Harrison per E-Mail, hier auf seine Bitte hin gepostet:

Damit können Sie die PDF herunterladen:

%Vor%

Hier ist eine längere Version, die seine Arbeit zeigt

%Vor%

Ben 09.01.2016 21:42

quelle

Tags und Links r curl web-scraping httr

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Bereichsbasierte for-Schleife ohne Angabe des Variablentyps

score 6 · Accepted Answer

Ihr Appell an rOpenSci hat gehört worden!

Zwischen diesen Seiten gibt es viel Javascript, das es etwas nervig macht, über httr + rvest zu entziffern. Probiere RSelenium . Dies funktionierte unter OS X 10.11.2, R 3.2.3 & amp; Firefox geladen.

%Vor%

Warten Sie nun, bis der Download abgeschlossen ist. Die R-Konsole ist während des Herunterladens nicht beschäftigt, daher ist es einfach, die Sitzung versehentlich zu schließen, bevor der Download abgeschlossen ist.

%Vor%