Nicht wirklich sicher, wie Sie diese Seite verarbeiten möchten, weil es wirklich unordentlich ist. Als wir in dieser berühmten stackoverflow-Frage erneut gelernt haben Es ist keine gute Idee, Regex in HTML zu schreiben, also wollen Sie das mit dem XML-Paket analysieren.
Hier ist ein Beispiel, um loszulegen:
%Vor%Dies führt zu einem Zeichenvektor von meist nur Webseiten-Text (zusammen mit etwas Javascript):
%Vor%Ihre beste Wette könnte das XML-Paket sein - siehe zum Beispiel vorherige Frage .
Tags und Links html r html-content-extraction screen-scraping