Wie kann ich den Inhalt einer Webseite in R lesen und analysieren?

Question

Wie kann ich den Inhalt einer Webseite in R lesen und analysieren?

8

Ich würde gerne den Inhalt einer URL (eq, Ссылка ) in R lesen. Ich frage mich, wie ich das machen kann es

html r html-content-extraction screen-scraping

Mark 04.12.2009, 04:18

quelle

3 Antworten

3

Ihre beste Wette könnte das XML-Paket sein - siehe zum Beispiel vorherige Frage .

Dirk Eddelbuettel 04.12.2009 04:29

quelle

2

Ich weiß, dass du nach R. gefragt hast. Aber vielleicht ist Python + Beautifullsoup hier der Weg nach vorne? Dann machen Sie Ihre Analyse mit R Sie haben den Bildschirm mit beautifulullup geschabt?

Andreas 04.12.2009 16:14

quelle

Tags und Links html r html-content-extraction screen-scraping

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Python-Ausnahmebildung

score 21 · Accepted Answer

Nicht wirklich sicher, wie Sie diese Seite verarbeiten möchten, weil es wirklich unordentlich ist. Als wir in dieser berühmten stackoverflow-Frage erneut gelernt haben Es ist keine gute Idee, Regex in HTML zu schreiben, also wollen Sie das mit dem XML-Paket analysieren.

Hier ist ein Beispiel, um loszulegen:

%Vor%

Dies führt zu einem Zeichenvektor von meist nur Webseiten-Text (zusammen mit etwas Javascript):

%Vor%