Ich versuche, die Links von der folgenden Webseite Ссылка vom Typ "Specimen" zu extrahieren. Ich kann die Tabelle von der Webseite mit dem folgenden Code abrufen:
%Vor%Allerdings fehlen die Links, nachdem ich den readHTML-Befehl verwendet habe.
Es endete damit, dass es sich um einen komplizierten XPath-Ausdruck handelte:
%Vor%Aber lassen Sie mich den XPath-Ausdruck Bit für Bit erklären:
//table[@id='resourcestable']
- & gt; Auf diese Weise erhalten wir die Haupttabelle auf der Seite mit dem Namen 'ressourcestable'
//td[5][.='Specimen']
- & gt; Jetzt filtern wir nur diese Zeilen mit Typ als Muster
/preceding-sibling
- & gt; Jetzt beginnen wir rückwärts zu schauen
::td[3]
- & gt; 3 Schritte um genau zu sein, rückwärts zählen von wo wir sind. Seien Sie vorsichtig Vorgänger-Geschwister beginnen rückwärts zu zählen, daher ist td [1] die Spalte Typ , td [2] ist die Organisation Spalte und td [ 3] ist die Name Spalte, die wir wollen.
/a
- & gt; Holen Sie sich jetzt den enthaltenen a Knoten
/@href
- & gt; und schließlich genauer der Inhalt des href-Attributs
Tags und Links html r xml web-scraping