Die Solr-Indizierung nach einem Nutc-Crawl schlägt fehl, meldet "Job fehlgeschlagen"

Question

Die Solr-Indizierung nach einem Nutc-Crawl schlägt fehl, meldet "Job fehlgeschlagen"

8

Ich habe eine Seite auf meinem lokalen Rechner gehostet, die ich mit Nutch zu crawlen versuche und in Solr indexiere (beide auch auf meinem lokalen Rechner). Ich habe Solr 4.6.1 und Nutch 1.7 nach den Anweisungen auf der Nutch-Seite installiert ( Ссылка ), und ich habe Solr am Laufen in meinem Browser ohne Problem.

Ich führe den folgenden Befehl aus:

%Vor%

Der Crawl funktioniert gut, aber wenn er versucht, die Daten in Solr zu legen, schlägt er mit der folgenden Ausgabe fehl:

%Vor%

Ich ging zum Nutch logs Verzeichnis und tippte die hadoop.log Datei, es zeigt dies:

%Vor%

Trotzdem kann ich in meinem Browser immer noch auf Solr zugreifen. Dies ist mein erster Versuch bei Solr / Nutch - jede Hilfe von denjenigen mit mehr Wissen würde sehr geschätzt werden. Vielen Dank.

solr nutch

rldrummer 07.02.2014, 00:40

quelle

3 Antworten

Tags und Links solr nutch

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Welche zusätzlichen Daten werden von einer anonymen Funktion gespeichert?

score 2 · Answer 1

2

Dies passiert, wenn nicht alle benötigten Felder von nutch in schema.xml von solr sind. Hast du die Felder aus Nutchs schema.xml ?

hinzugefügt?

Wenn Sie im Abschnitt "Felder" Folgendes hinzufügen, sollten die Dinge funktionieren:

%Vor%

Diaa 14.02.2014 11:40

quelle

score 0 · Answer 2

Ich hatte ein ähnliches Problem mit Nutch 1.8 und Solr 4.8.0. Tatsächlich hat mir Diaas Antwort geholfen, das Problem zu lösen. Nachdem einige Schnittpunkte von schema.xml mit Diaas Feldliste entfernt wurden und nachdem zwei Einträge geändert wurden, die als "added by wb" und "by wb" markiert waren, kam ich zu der folgenden Feldliste, die für mich funktionierte. Im Gegensatz zu früheren Versionen von nutch und solr gibt es kein Tag für "fields" mehr. Einträge, die mit "field" getaggt sind, sind einfach innerhalb von "schema". Dies ist die vollständige Feldliste:

%Vor%

score 0 · Answer 3

Hallo, ich weiß, diese Frage ist alt, aber für die Leute, die nutch und solr im Jahr 2017 mit Version (nutch 1.13, solr 5.5.0) verwenden, hatte ich das gleiche Problem, das ich nur mit folgender Lösung löste

bin / crawl -i -D solarr.server.url = Ссылка URLs / TestCrawl2 / 1

oben ist der Befehl, den ich für crawl verwende, aber ich hatte denselben Fehler, wenn ich diesen benutze

bin / crawl -i -D solarr.server.url = Ссылка URLs TestCrawl2 2

Ich entferne nur das '/' nach URLs / TestCrawl2 /, es funktioniert für mich Danke