Ich crawle einige Websites mit Apache Nutch 2.1.
Beim Crawlen sehe ich auf vielen Seiten folgende Meldung:
Ex. Überspringen Ссылка ; unterschiedliche Batch-ID (null).
Was verursacht diesen Fehler?
Wie kann ich dieses Problem beheben, da die Seiten mit unterschiedlicher Batch-ID (null) nicht in der Datenbank gespeichert sind.
Die Seite, die ich gecrawlt habe, basiert auf drupal, aber ich habe auf vielen anderen nicht drupal Websites versucht.
Tags und Links apache web-crawler nutch