Wie kann ich den Inhalt einer Webseite in R lesen und analysieren?

8

Ich würde gerne den Inhalt einer URL (eq, Ссылка ) in R lesen. Ich frage mich, wie ich das machen kann es

    
Mark 04.12.2009, 04:18
quelle

3 Antworten

21

Nicht wirklich sicher, wie Sie diese Seite verarbeiten möchten, weil es wirklich unordentlich ist. Als wir in dieser berühmten stackoverflow-Frage erneut gelernt haben Es ist keine gute Idee, Regex in HTML zu schreiben, also wollen Sie das mit dem XML-Paket analysieren.

Hier ist ein Beispiel, um loszulegen:

%Vor%

Dies führt zu einem Zeichenvektor von meist nur Webseiten-Text (zusammen mit etwas Javascript):

%Vor%     
Shane 04.12.2009, 14:38
quelle
3

Ihre beste Wette könnte das XML-Paket sein - siehe zum Beispiel vorherige Frage .

    
Dirk Eddelbuettel 04.12.2009 04:29
quelle
2

Ich weiß, dass du nach R. gefragt hast. Aber vielleicht ist Python + Beautifullsoup hier der Weg nach vorne? Dann machen Sie Ihre Analyse mit R Sie haben den Bildschirm mit beautifulullup geschabt?

    
Andreas 04.12.2009 16:14
quelle