Ich versuche, Solr mit Nutch auf einer Windows-Maschine zu verwenden, und ich bekomme den folgenden Fehler:
%Vor%Aus vielen Threads habe ich gelernt, dass hadoop, das von nutch benutzt wird, eine chmod-Magie benutzt, die auf Unix-Maschinen funktioniert, aber nicht auf Windows.
Dieses Problem besteht nun seit mehr als einem Jahr. Ich habe einen Thread gefunden, in dem die Codezeile angezeigt und ein Fix vorgeschlagen wird. Bin ich wirklich der Einzige, der dieses Problem hat? Erstellen alle anderen Benutzer einen benutzerdefinierten Build, um auf Windows zu arbeiten? Oder gibt es eine Option, um das Hadoop-Zeug oder eine andere Lösung zu deaktivieren? Vielleicht ein anderer Crawler als Nutch?
Vielen Dank. Boris
Hier ist der Stack-Trace von dem, was ich tue ....
%Vor%Es hat eine Weile gedauert, bis das funktionierte, aber hier ist die Lösung, die auf nutch 1.7 funktioniert.
Das sollte es sein.
Erläuterung
Dieses Problem wird von hadoop verursacht, da davon ausgegangen wird, dass Sie unter Unix laufen und sich an die Regeln für die Dateiberechtigungen halten. Das Problem wurde 2011 behoben, aber nutch hat die von ihnen verwendete hadoop-Version nicht aktualisiert. Die entsprechenden Korrekturen sind hier und hier
Wir benutzen auch Nutch, aber es wird nicht unter Windows unterstützt, auf Cygwin hatte unsere Version 1.4 ähnliche Probleme wie du, sowas wie mapreduce.
Wir haben es gelöst, indem wir ein vm (Virtual box) mit Ubuntu und ein gemeinsames Verzeichnis zwischen Windows und Linux verwendet haben, damit wir unter Windows entwickeln und bauen und Nutch (crawlen) unter Linux ausführen können.
Ich habe Nutch auf Windows laufen, kein Custom Build. Es ist lange her, dass ich es noch nicht benutzt habe. Aber eine Sache, die mich eine Weile brauchte, um zu fangen, ist, dass Sie cygwin als Windows-Administrator ausführen müssen, um die notwendigen Rechte zu bekommen.
Ich schlage einen anderen Ansatz vor. Überprüfen Sie diesen Link . Es erklärt, wie man den Fehler unter Windows schluckt, und erfordert nicht, dass Sie Hadoop herunterstufen oder Nutch neu aufbauen. Ich habe auf Nutch 2.1 getestet, aber es gilt auch für andere Versionen. Ich habe auch eine einfache .bat zum Starten des Crawlers und Indexers erstellt , aber es ist für Nutch 2.x gedacht, möglicherweise nicht anwendbar für Nutch 1.x.