Extrahieren Sie Links aus der HTML-Tabelle

Question

Extrahieren Sie Links aus der HTML-Tabelle

8

Ich versuche, die Links von der folgenden Webseite Ссылка vom Typ "Specimen" zu extrahieren. Ich kann die Tabelle von der Webseite mit dem folgenden Code abrufen:

%Vor%

Allerdings fehlen die Links, nachdem ich den readHTML-Befehl verwendet habe.

html r xml web-scraping

Jorge Velasquez 05.09.2012, 22:00

quelle

2 Antworten

Tags und Links html r xml web-scraping

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Wo ist Float # to_d?

score 10 · Answer 1

Es endete damit, dass es sich um einen komplizierten XPath-Ausdruck handelte:

%Vor%

Aber lassen Sie mich den XPath-Ausdruck Bit für Bit erklären:

//table[@id='resourcestable'] - & gt; Auf diese Weise erhalten wir die Haupttabelle auf der Seite mit dem Namen 'ressourcestable'
//td[5][.='Specimen'] - & gt; Jetzt filtern wir nur diese Zeilen mit Typ als Muster
/preceding-sibling - & gt; Jetzt beginnen wir rückwärts zu schauen
::td[3] - & gt; 3 Schritte um genau zu sein, rückwärts zählen von wo wir sind. Seien Sie vorsichtig Vorgänger-Geschwister beginnen rückwärts zu zählen, daher ist td [1] die Spalte Typ , td [2] ist die Organisation Spalte und td [ 3] ist die Name Spalte, die wir wollen.
/a - & gt; Holen Sie sich jetzt den enthaltenen a Knoten
/@href - & gt; und schließlich genauer der Inhalt des href-Attributs

score 5 · Answer 2

5

%Vor%

user1609452 07.09.2012 15:39

quelle