beautifulsoup

Beautiful Soup ist ein Python-Paket zum Parsen von HTML / XML. Die neueste Version dieses Pakets ist Version 4, importiert als bs4.
2
Antworten

BeautifulSoup extrahiert XPATH oder CSS Pfad des Knotens

Ich möchte einige Daten aus HTML extrahieren und dann in der Lage sein, extrahierte Elemente auf der Client-Seite hervorzuheben, ohne Quell-HTML zu ändern. Und XPath oder CSS Path sieht dafür gut aus. Ist es möglich, XPATH oder CSS Path direkt...
22.09.2014, 08:16
4
Antworten

Schnellste, einfachste und beste Möglichkeit, eine HTML-Tabelle zu parsen?

Ich versuche, diese Tabelle Ссылка ins Array-Format zu bekommen, damit ich damit machen kann, was ich will . Vorzugsweise in PHP, Python oder JavaScript. Dies ist die Art von Problem, das viel auftaucht. Anstatt nach Hilfe für dieses spezie...
04.02.2011, 00:19
1
Antwort

Rekursionstiefehler bei Verwendung von BeautifulSoup mit Multiprocessing-Pool-Map

Ich habe BeautifulSoup zum Parsen von HTML-Dateien verwendet, während alle Skripte, die ich schreibe, gut, aber langsam sind. Also experimentiere ich mit mehreren Bearbeiterpools zusammen mit BeautifulSoup, damit mein Programm schneller ausgefüh...
29.04.2012, 17:56
1
Antwort

Verhindern, dass BeautifulSoup meine XML-Tags in Kleinbuchstaben konvertiert

Ich verwende BeautifulStoneSoup, um ein XML-Dokument zu analysieren und einige Attribute zu ändern. Ich habe festgestellt, dass alle XML-Tags automatisch in Kleinbuchstaben umgewandelt werden. Zum Beispiel hat meine Quelldatei <DocData>...
20.02.2009, 01:52
1
Antwort

Web Scraping SEC Edgar 10-K und 10-Q-Einreichungen

Gibt es jemanden, der Erfahrung damit hat, SEC 10-K und 10-Q zu scannen? Ich steckte fest, während ich versuchte, monatlich realisierte Aktienrückkäufe aus diesen Einreichungen zu machen. Insbesondere möchte ich folgende Informationen erhalten:...
20.07.2015, 22:53
4
Antworten

Python-Web-Scraping mit HTML-Tags mit Attributen

Ich versuche, einen Web-Scraper zu erstellen, der eine Webseite mit Publikationen analysiert und die Autoren extrahiert. Die Skelettstruktur der Webseite ist die folgende: %Vor% Ich habe bisher versucht, BeautifulSoup und lxml zu benutzen, u...
08.09.2009, 02:23
1
Antwort

Schöne Suppe und Unicode-Probleme

Ich verwende BeautifulSoup, um einige Webseiten zu analysieren. Gelegentlich laufe ich in einen "Unicode-Fehler" wie folgt: Mit Blick auf die Quelle dieses Artikels auf TheAtlantic.com [ Ссылка ] Das sehen wir in der og: description Met...
22.10.2013, 03:23
2
Antworten

HTML-Codierung und lxml-Analyse

Ich versuche, endlich einige Probleme mit der Codierung zu lösen, die beim Versuch, HTML mit lxml zu scrappen, auftauchen. Hier sind drei Beispiel-HTML-Dokumente, denen ich begegnet bin: 1. %Vor% 2. %Vor% 3. %Vor% Mein grundlegend...
08.03.2013, 19:50