Ich habe eine Seite auf meinem lokalen Rechner gehostet, die ich mit Nutch zu crawlen versuche und in Solr indexiere (beide auch auf meinem lokalen Rechner). Ich habe Solr 4.6.1 und Nutch 1.7 nach den Anweisungen auf der Nutch-Seite installiert ( Ссылка ), und ich habe Solr am Laufen in meinem Browser ohne Problem.
Ich führe den folgenden Befehl aus:
%Vor%Der Crawl funktioniert gut, aber wenn er versucht, die Daten in Solr zu legen, schlägt er mit der folgenden Ausgabe fehl:
%Vor%Ich ging zum Nutch logs Verzeichnis und tippte die hadoop.log Datei, es zeigt dies:
%Vor%Trotzdem kann ich in meinem Browser immer noch auf Solr zugreifen. Dies ist mein erster Versuch bei Solr / Nutch - jede Hilfe von denjenigen mit mehr Wissen würde sehr geschätzt werden. Vielen Dank.
Ich hatte ein ähnliches Problem mit Nutch 1.8 und Solr 4.8.0. Tatsächlich hat mir Diaas Antwort geholfen, das Problem zu lösen. Nachdem einige Schnittpunkte von schema.xml mit Diaas Feldliste entfernt wurden und nachdem zwei Einträge geändert wurden, die als "added by wb" und "by wb" markiert waren, kam ich zu der folgenden Feldliste, die für mich funktionierte. Im Gegensatz zu früheren Versionen von nutch und solr gibt es kein Tag für "fields" mehr. Einträge, die mit "field" getaggt sind, sind einfach innerhalb von "schema". Dies ist die vollständige Feldliste:
%Vor%Hallo, ich weiß, diese Frage ist alt, aber für die Leute, die nutch und solr im Jahr 2017 mit Version (nutch 1.13, solr 5.5.0) verwenden, hatte ich das gleiche Problem, das ich nur mit folgender Lösung löste
bin / crawl -i -D solarr.server.url = Ссылка URLs / TestCrawl2 / 1
oben ist der Befehl, den ich für crawl verwende, aber ich hatte denselben Fehler, wenn ich diesen benutze
bin / crawl -i -D solarr.server.url = Ссылка URLs TestCrawl2 2
Ich entferne nur das '/' nach URLs / TestCrawl2 /, es funktioniert für mich Danke