python beautifulsoup iframe Dokument HTML-Extrakt

8

Ich versuche ein bisschen schöne Suppe zu lernen und einige HTML-Daten aus einigen iFrames zu bekommen - aber ich war bisher nicht sehr erfolgreich.

Das Parsen des iFrames an sich scheint also kein Problem mit BS4 zu sein, aber ich scheine nicht den eingebetteten Inhalt daraus zu bekommen - was auch immer ich tue.

Betrachten Sie zum Beispiel den folgenden iFrame (das sehe ich in den Chrome-Entwicklertools):

%Vor%

Dabei steht <html>...</html> für den Inhalt, den ich extrahieren möchte.

Wenn ich jedoch den folgenden BS4-Code verwende:

%Vor%

Ich bekomme:

%Vor%

Mit anderen Worten, ich bekomme die iFrames ohne das Dokument <html>...</html> in ihnen.

Ich habe etwas nach folgendem Muster versucht:

%Vor%

.. aber das scheint nicht zu funktionieren.

Also, meine Frage ist, wie extrahiere ich zuverlässig diese Dokumentobjekte <html>...</html> aus den iFrame-Elementen.

    
AJW 12.04.2014, 09:37
quelle

1 Antwort

12

Browser laden den iframe-Inhalt in einer separaten Anfrage . Sie müssen das gleiche tun:

%Vor%

Denken Sie daran: BeautifulSoup ist kein Browser; Es werden auch keine Bilder, CSS- und JavaScript-Ressourcen für Sie abgerufen.

    
Martijn Pieters 12.04.2014, 09:38
quelle

Tags und Links