Die Solr-Indizierung nach einem Nutc-Crawl schlägt fehl, meldet "Job fehlgeschlagen"

8

Ich habe eine Seite auf meinem lokalen Rechner gehostet, die ich mit Nutch zu crawlen versuche und in Solr indexiere (beide auch auf meinem lokalen Rechner). Ich habe Solr 4.6.1 und Nutch 1.7 nach den Anweisungen auf der Nutch-Seite installiert ( Ссылка ), und ich habe Solr am Laufen in meinem Browser ohne Problem.

Ich führe den folgenden Befehl aus:

%Vor%

Der Crawl funktioniert gut, aber wenn er versucht, die Daten in Solr zu legen, schlägt er mit der folgenden Ausgabe fehl:

%Vor%

Ich ging zum Nutch logs Verzeichnis und tippte die hadoop.log Datei, es zeigt dies:

%Vor%

Trotzdem kann ich in meinem Browser immer noch auf Solr zugreifen. Dies ist mein erster Versuch bei Solr / Nutch - jede Hilfe von denjenigen mit mehr Wissen würde sehr geschätzt werden. Vielen Dank.

    
rldrummer 07.02.2014, 00:40
quelle

3 Antworten

2

Dies passiert, wenn nicht alle benötigten Felder von nutch in schema.xml von solr sind. Hast du die Felder aus Nutchs schema.xml ?

hinzugefügt?

Wenn Sie im Abschnitt "Felder" Folgendes hinzufügen, sollten die Dinge funktionieren:

%Vor%     
Diaa 14.02.2014 11:40
quelle
0

Ich hatte ein ähnliches Problem mit Nutch 1.8 und Solr 4.8.0. Tatsächlich hat mir Diaas Antwort geholfen, das Problem zu lösen. Nachdem einige Schnittpunkte von schema.xml mit Diaas Feldliste entfernt wurden und nachdem zwei Einträge geändert wurden, die als "added by wb" und "by wb" markiert waren, kam ich zu der folgenden Feldliste, die für mich funktionierte. Im Gegensatz zu früheren Versionen von nutch und solr gibt es kein Tag für "fields" mehr. Einträge, die mit "field" getaggt sind, sind einfach innerhalb von "schema". Dies ist die vollständige Feldliste:

%Vor%     
lucobada 01.05.2014 13:44
quelle
0

Hallo, ich weiß, diese Frage ist alt, aber für die Leute, die nutch und solr im Jahr 2017 mit Version (nutch 1.13, solr 5.5.0) verwenden, hatte ich das gleiche Problem, das ich nur mit folgender Lösung löste

bin / crawl -i -D solarr.server.url = Ссылка URLs / TestCrawl2 / 1

oben ist der Befehl, den ich für crawl verwende, aber ich hatte denselben Fehler, wenn ich diesen benutze

bin / crawl -i -D solarr.server.url = Ссылка URLs TestCrawl2 2

Ich entferne nur das '/' nach URLs / TestCrawl2 /, es funktioniert für mich Danke

    
Bhagvat Lande 30.11.2017 11:33
quelle

Tags und Links