Ich würde gerne in der Lage sein, relativ aktuelle statische HTML-Dateien aus der enormen (auch komprimierten) englischen Wikipedia-XML-Dump-Datei zu erhalten enwiki-neueste-seiten-artikel.xml.bz2 Ich habe von der WikiMedia-Dump-Seite . Es scheint ziemlich viele Tools zu geben, obwohl die Dokumentation dafür ziemlich knapp ist, also weiß ich nicht, was die meisten tun oder ob sie mit den neuesten Dumps auf dem neuesten Stand sind. (Ich bin ziemlich gut darin, Webcrawler zu erstellen, die durch relativ kleine HTML-Seiten / -Dateien crawlen können, obwohl ich mit SQL und XML schrecklich bin, und ich erwarte nicht, dass ich für mindestens ein weiteres Jahr sehr gut mit ihnen umgehen kann.) Ich möchte in der Lage sein, durch HTML-Dateien, die von einem Dump offline erhalten werden, zu crawlen, ohne auf Online-Crawlen von Wikipedia zurückgreifen zu müssen.
Kennt jemand ein gutes Tool, um statische HTML-Dateien von aktuellen Wikipedia XML-Dumps zu erhalten?
Zuerst importieren Sie die Daten . Dann erstellen Sie die HTML-Dateien mit DumpHTML . Obwohl es in der Theorie einfach ist, könnte dieser Prozess in der Praxis kompliziert sein, da das Datenvolumen und DumpHTML etwas vernachlässigt sind. Zögern Sie also nicht, Hilfe anfordern .
Tags und Links xml-parsing web-crawler screen-scraping mediawiki wikipedia