Ich bleibe bei Cookies stecken, wenn ich versuche, ein PDF herunterzuladen.
Wenn ich zum Beispiel ein DOI für ein PDF-Dokument im Archäologie-Datendienst habe, wird es auf
library(httr)
kümmert sich um die Auflösung des DOI und wir können die PDF-URL von der Zielseite mit library(XML)
extrahieren, aber ich bin dabei, das PDF selbst zu holen.
Wenn ich das tue:
%Vor%Dann erhalte ich eine HTML-Datei, die mit Ссылка
übereinstimmtVersuchen Sie die Antwort unter Wie verwende ich R, um eine gezippte Datei von einer SSL-Seite herunterzuladen, die Cookies erfordert führt mich dazu:
%Vor% Aber nach den Funktionen POST
und GET
erhalte ich einfach den HTML-Code derselben Cookie-Seite, die ich mit download.file
:
Mit Blick auf Ссылка scheint die Cookie-Situation auf dieser Seite kompliziert zu sein. Es scheint, als ob diese Art von Cookie-Komplexität für britische Datenanbieter nicht ungewöhnlich ist: Automatisierung der Anmeldung bei der britischen Datendienst-Website in R mit RCurl oder HTR
Wie kann ich mit R die Cookies auf dieser Website umgehen?
Ihr Appell an rOpenSci hat gehört worden!
Zwischen diesen Seiten gibt es viel Javascript, das es etwas nervig macht, über httr
+ rvest
zu entziffern. Probiere RSelenium
. Dies funktionierte unter OS X 10.11.2, R 3.2.3 & amp; Firefox geladen.
Warten Sie nun, bis der Download abgeschlossen ist. Die R-Konsole ist während des Herunterladens nicht beschäftigt, daher ist es einfach, die Sitzung versehentlich zu schließen, bevor der Download abgeschlossen ist.
%Vor%Diese Antwort kam von John Harrison per E-Mail, hier auf seine Bitte hin gepostet:
Damit können Sie die PDF herunterladen:
%Vor%Hier ist eine längere Version, die seine Arbeit zeigt
%Vor%Tags und Links r curl web-scraping httr