URL mit Nutch nur für aktualisierte Websites neu crawlen

8

Ich habe eine URL mit Nutch 2.1 gecrawlt und möchte dann die Seiten neu crawlen, nachdem sie aktualisiert wurden. Wie kann ich das machen? Wie kann ich wissen, dass eine Seite aktualisiert wurde?

    
Ilce MKD 10.01.2013, 15:40
quelle

3 Antworten

5

Einfach kann man nicht. Sie müssen die Seite erneut durchsuchen, um zu steuern, ob sie aktualisiert wird. Passen Sie die Seiten / Domains entsprechend Ihren Anforderungen an und sortieren Sie sie innerhalb eines bestimmten Zeitraums erneut. Dafür benötigen Sie einen Job-Scheduler wie Quartz .

Sie müssen eine Funktion schreiben, die die Seiten vergleicht. Nutch speichert die Seiten jedoch ursprünglich als Indexdateien. Mit anderen Worten generiert Nutch neue Binärdateien, um HTMLs zu speichern. Ich glaube nicht, dass es möglich ist, binäre Dateien zu vergleichen, da Nutch alle Crawling-Ergebnisse in einer einzigen Datei vereint. Wenn Sie Seiten im reinen HTML-Format speichern möchten, um sie zu vergleichen, finden Sie in meiner Antwort unter diese Frage.

    
İsmet Alkan 10.01.2013, 15:45
quelle
4

Sie müssen einen Job für das Stellen des Jobs planen Nutch AdaptiveFetchSchedule sollte Ihnen jedoch ermöglichen, Seiten zu crawlen und zu indexieren und zu erkennen, ob die Seite neu oder aktualisiert ist und Sie dies nicht manuell tun müssen.

Artikel beschreibt das gleiche im Detail.

>     
Jayendra 11.01.2013 06:05
quelle
1

Was ist mit Ссылка

?

Dies wird diskutiert unter: Wie man nutch nachzählt

Ich frage mich, ob die oben erwähnte Lösung tatsächlich funktionieren wird. Ich versuche es, während wir sprechen. Ich crawle Newssites und sie aktualisieren ihre Frontpage ziemlich häufig, also muss ich häufig den Index / die Frontpage neu crawlen und die neu entdeckten Verbindungen holen.

    
user1973842 13.01.2013 09:50
quelle