Wenn Sie mit jQuery vertraut sind, können Sie pQuery ausprobieren. Das macht es sehr einfach:
%Vor%Es gibt auch HTML :: DOM .
Was auch immer Sie tun, verwenden Sie dafür keine regulären Ausdrücke.
Ich habe HTML Table Extract in der Vergangenheit verwendet. Ich persönlich finde es ein bisschen ungeschickt zu benutzen, aber vielleicht habe ich das Objektmodell nicht gut verstanden. Normalerweise benutze ich diesen Teil des Handbuchs, um die Daten zu untersuchen:
%Vor%Obwohl ich das im Allgemeinen mit LWP / LWP :: Simple , das aktuelle "bevorzugte" Modul für jede Art von Webseiten-Scraping in Perl ist WWW :: Mechanize .
>Wenn Sie mit XPath vertraut sind, können Sie auch HTML :: TreeBuilder :: XPath verwenden . Und wenn du nicht ... naja, solltest du sein; -)
Für ähnliche Stackoverflow-Fragen siehe ...
Ich mag es, pQuery für solche Dinge zu verwenden, aber Web::Scraper sieht interessant aus.
Ich will nicht einen toten Thread hochziehen, aber jeder, der über diesen Thread googelt, sollte auch checkout WWW::Scripter - "Zum Erstellen von Skripts für Websites mit Skripten"
Happy Remote-Datenaggregation;)
Sieh dir den magischen Web :: Scraper an, es ist THE Werkzeug zum Abschaben des Netzes.
Ich benutze LWP :: UserAgent für die meisten meiner Screen Scraping braucht. Sie können das auch mit HTTP :: Cookies verbinden, wenn Sie es brauchen Cookies unterstützen.
Hier ist ein einfaches Beispiel, wie man die Quelle bekommt.
%Vor%Tags und Links perl screen-scraping