nutch

Nutch ist ein ausgereifter, produktionsreifer Web-Crawler. Nutch ermöglicht eine feinkörnige Konfiguration mit Apache Hadoop ™ -Datenstrukturen, die sich hervorragend für die Stapelverarbeitung eignen.
1
Antwort

Apache Nutch 2.1 verschiedene Batch-ID (null)

Ich crawle einige Websites mit Apache Nutch 2.1. Beim Crawlen sehe ich auf vielen Seiten folgende Meldung: Ex. Überspringen Ссылка ; unterschiedliche Batch-ID (null). Was verursacht diesen Fehler? Wie kann ich dieses Problem beheben, da...
12.02.2013, 08:33
0
Antworten

Nutch Probleme beim Ausführen von Crawl unter Windows

Ich versuche, nutch 1.11 zu kriegen. Ich benutze Cygwin, um diese Befehle in Windows 8 auszuführen. Ich habe hadoop-core jar in den lib-Ordner gestellt, aber wenn ich versuche, einen Crawl auszuführen, erhalte ich:    Ausnahme im Thread...
12.05.2016, 08:48
1
Antwort

könnte die Hauptklasse org.apache.nutch.crawl.InjectorJob finden oder laden

Ich verwende Linux mit Hadoop, Cloudera und HBase. Können Sie mir sagen, wie ich diesen Fehler beheben kann? Fehler: could to find or load main class org.apache.nutch.crawl.InjectorJob Der folgende Befehl gab mir den Fehler: %Vor%...
09.03.2015, 09:27