Das folgende Skript ermöglicht es mir, auf eine Website mit mehreren Links mit ähnlichen Namen zu gelangen. Ich möchte nur einen von ihnen erhalten, der von den anderen unterschieden werden kann, da er auf der Website fett gedruckt ist. Ich konnte jedoch keinen Weg finden, einen fettgedruckten Link in einer Liste auszuwählen.
Würde irgendjemand etwas dagegen haben? Vielen Dank im Voraus!
%Vor% Nimm als erstes tidy-html5
(es funktioniert so ziemlich alles) und installiere es und stelle sicher, dass es in deinem% co_de ist %.
Wie mein Kommentar sagte, behandeln Browser PATH
outside <b>
, da sie kugelsicher sein müssen. <p>
nicht. Also müssen wir das zuerst aufräumen (und ich muss jetzt ein neues libxml2
-Paket erstellen) und dann die aufgeräumte Version bearbeiten:
Wenn CSS-Selektoren über XPath gewünscht sind:
%Vor%AKTUALISIEREN
Ich habe einen grundlegenden Paket-Wrapper für tidyhtml
gestartet. Wenn Sie OS X verwenden und Homebrew verwenden, können Sie Folgendes tun: libtidy
(installiert die obige binary und die brew install tidy-html5
-Bibliothek) und libtidy
, um den pkg zu installieren. Dann ist es nur:
Ich sollte das unter Windows & amp; Linux und machen es zu einem echten Paket (es ist ein dünner Wrapper w / o Fehlerprüfung jetzt), aber das wird eine Weile auf der TODO sein.
Scheint so, als könnte hier ein Fehler mit rvest
/ httr
auftreten, da <b>
den <a href...>
auf dem relevanten Link umgibt, aber nicht in der geparsten Version.
Ich habe verwendet:
%Vor%Sehen Sie sich Folgendes an:
%Vor% Wie Sie sehen können, erscheint der Knoten <b>
leer. Wenn ich jedoch die Suche manuell und View Source
in Chrome eintrage, sehe ich:
Dass das relevante <a>
zwischen <b>
und </b>
liegt, sagt mir, dass es ein Kind dieses <b>
sein sollte, aber das kommt leer:
Ich bin zugegebenermaßen kein xpath
Experte, also könnte ich die Dinge hier mucken. Hoffe, das hilft dir auf deinem Weg.