Ich versuche, den Inhalt von Bietwebseiten abzuschaben, kann aber nicht die komplette Seite der Website abrufen. Ich verwende Crowbar auf Xulrunner, um die Seite zuerst zu holen (da Ajax bestimmte Elemente auf faule Art lädt) und dann aus der Datei zu kratzen. Aber auf der Hauptseite der Website von Bidrivals schlägt dies fehl, selbst wenn die lokale Datei gut gebildet ist. jSoup scheint einfach mit '...' Zeichen auf halbem Wege im HTML-Code zu enden. Wenn Ihnen jemand schon einmal begegnet ist, helfen Sie bitte. Der folgende Code wird für [ diesen Link ] aufgerufen.
%Vor%Probieren Sie HtmlUnit aus, um die Seite zu rendern (einschließlich JavaScript- und CSS-Dom-Manipulation) und übergeben Sie dann das gerenderte HTML an jsoup.
%Vor%page.html - Quellcode
%Vor%loadData.js
%Vor%page.html beim Laden in den Browser
| Spalte1 | Col2 | | ------ | ------ | | 0.0 | 0.1 | | 1.0 | 1.1 |
Verwenden von jsoup zum Parsen von page.html für Col-Daten
%Vor%Ausgabe
(leer)
Was ist passiert?
Jsoup analysiert den Quellcode, wie er vom Server geliefert wurde (oder in diesem Fall aus der Datei geladen wurde). Es ruft keine clientseitigen Aktionen wie JavaScript- oder CSS-DOM-Manipulation auf. In diesem Beispiel werden die Zeilen und Spalten niemals an die Datentabelle angehängt.
Wie analysiere ich meine Seite im Browser?
%Vor%Ausgabe
%Vor%Tags und Links java web-scraping jsoup