Abrufen von statischen HTML-Dateien aus dem XML-Dump von Wikipedia

Question

Abrufen von statischen HTML-Dateien aus dem XML-Dump von Wikipedia

8

Ich würde gerne in der Lage sein, relativ aktuelle statische HTML-Dateien aus der enormen (auch komprimierten) englischen Wikipedia-XML-Dump-Datei zu erhalten enwiki-neueste-seiten-artikel.xml.bz2 Ich habe von der WikiMedia-Dump-Seite . Es scheint ziemlich viele Tools zu geben, obwohl die Dokumentation dafür ziemlich knapp ist, also weiß ich nicht, was die meisten tun oder ob sie mit den neuesten Dumps auf dem neuesten Stand sind. (Ich bin ziemlich gut darin, Webcrawler zu erstellen, die durch relativ kleine HTML-Seiten / -Dateien crawlen können, obwohl ich mit SQL und XML schrecklich bin, und ich erwarte nicht, dass ich für mindestens ein weiteres Jahr sehr gut mit ihnen umgehen kann.) Ich möchte in der Lage sein, durch HTML-Dateien, die von einem Dump offline erhalten werden, zu crawlen, ohne auf Online-Crawlen von Wikipedia zurückgreifen zu müssen.

Kennt jemand ein gutes Tool, um statische HTML-Dateien von aktuellen Wikipedia XML-Dumps zu erhalten?

xml-parsing web-crawler screen-scraping mediawiki wikipedia

Brian Schmitz 23.05.2012, 04:12

quelle

1 Antwort

Tags und Links xml-parsing web-crawler screen-scraping mediawiki wikipedia

Django: Verwenden von Annotate, Count und Distinct in einem Queryset SSH-Fehler: "Keine RSA1-Schlüsseldatei ~ / .ssh / id_rsa.", "Schlüsseltyp_von_Name: unbekannter Schlüsseltyp" ----- BEGIN '"

score 3 · Accepted Answer

Zuerst importieren Sie die Daten . Dann erstellen Sie die HTML-Dateien mit DumpHTML . Obwohl es in der Theorie einfach ist, könnte dieser Prozess in der Praxis kompliziert sein, da das Datenvolumen und DumpHTML etwas vernachlässigt sind. Zögern Sie also nicht, Hilfe anfordern .