Extrahieren Sie Links aus der HTML-Tabelle

8

Ich versuche, die Links von der folgenden Webseite Ссылка vom Typ "Specimen" zu extrahieren. Ich kann die Tabelle von der Webseite mit dem folgenden Code abrufen:

%Vor%

Allerdings fehlen die Links, nachdem ich den readHTML-Befehl verwendet habe.

    
Jorge Velasquez 05.09.2012, 22:00
quelle

2 Antworten

10

Es endete damit, dass es sich um einen komplizierten XPath-Ausdruck handelte:

%Vor%

Aber lassen Sie mich den XPath-Ausdruck Bit für Bit erklären:

  • //table[@id='resourcestable'] - & gt; Auf diese Weise erhalten wir die Haupttabelle auf der Seite mit dem Namen 'ressourcestable'

  • //td[5][.='Specimen'] - & gt; Jetzt filtern wir nur diese Zeilen mit Typ als Muster

  • /preceding-sibling - & gt; Jetzt beginnen wir rückwärts zu schauen

  • ::td[3] - & gt; 3 Schritte um genau zu sein, rückwärts zählen von wo wir sind. Seien Sie vorsichtig Vorgänger-Geschwister beginnen rückwärts zu zählen, daher ist td [1] die Spalte Typ , td [2] ist die Organisation Spalte und td [ 3] ist die Name Spalte, die wir wollen.

  • /a - & gt; Holen Sie sich jetzt den enthaltenen a Knoten

  • /@href - & gt; und schließlich genauer der Inhalt des href-Attributs

dimitrisli 06.09.2012 00:55
quelle
5
%Vor%     
user1609452 07.09.2012 15:39
quelle

Tags und Links