Einfach kann man nicht. Sie müssen die Seite erneut durchsuchen, um zu steuern, ob sie aktualisiert wird. Passen Sie die Seiten / Domains entsprechend Ihren Anforderungen an und sortieren Sie sie innerhalb eines bestimmten Zeitraums erneut. Dafür benötigen Sie einen Job-Scheduler wie Quartz .
Sie müssen eine Funktion schreiben, die die Seiten vergleicht. Nutch speichert die Seiten jedoch ursprünglich als Indexdateien. Mit anderen Worten generiert Nutch neue Binärdateien, um HTMLs zu speichern. Ich glaube nicht, dass es möglich ist, binäre Dateien zu vergleichen, da Nutch alle Crawling-Ergebnisse in einer einzigen Datei vereint. Wenn Sie Seiten im reinen HTML-Format speichern möchten, um sie zu vergleichen, finden Sie in meiner Antwort unter diese Frage.
Sie müssen einen Job für das Stellen des Jobs planen Nutch AdaptiveFetchSchedule sollte Ihnen jedoch ermöglichen, Seiten zu crawlen und zu indexieren und zu erkennen, ob die Seite neu oder aktualisiert ist und Sie dies nicht manuell tun müssen.
Artikel beschreibt das gleiche im Detail.
>Was ist mit Ссылка
?Dies wird diskutiert unter: Wie man nutch nachzählt
Ich frage mich, ob die oben erwähnte Lösung tatsächlich funktionieren wird. Ich versuche es, während wir sprechen. Ich crawle Newssites und sie aktualisieren ihre Frontpage ziemlich häufig, also muss ich häufig den Index / die Frontpage neu crawlen und die neu entdeckten Verbindungen holen.
Tags und Links apache web-crawler solr lucene nutch