crawl dynamische Webseite mit htmlunit

8

Ich crawle Daten mit HtmlUnit von einer dynamischen Webseite, die unendlich scrollt, um Daten dynamisch zu holen, genau wie der Newsfeed von Facebook. Ich habe den folgenden Satz verwendet, um das Herunterscrollen-Ereignis zu simulieren:

%Vor%

Aber es scheint, dass myHtmlPage mit dem vorherigen identisch ist, d. h. neue Daten werden nicht in myHtmlPage angehängt, daher kann ich nur die ersten paar Daten auf der Webseite crawlen. Danke für Ihre Hilfe!

    
Marcopolo Soc 25.08.2012, 05:58
quelle

2 Antworten

0

Ich habe dasselbe gesucht. Ich konnte nur feststellen, dass es kein Scroll Event ist (90% sicher). Es gibt einen Link auf JS, der responsilbe ist zum Laden der Seite und könnte Ihnen vielleicht helfen.

    
Srneczek 01.05.2013 15:40
quelle
0

Ich hatte ein ähnliches Problem, wo der Inhalt während des Blätterns der Seite nachgeladen wurde. Ich löste es mit:

webClient.getCurrentWindow().setInnerHeight(Integer.MAX_VALUE);

    
pitschr 08.07.2014 06:37
quelle