Wie verhindere ich, dass der Googlebot die Website überflutet?

9

Ich betreibe eine Website mit vielen Inhalten, aber wenig Traffic auf einem dedizierten Server auf mittlerer Ebene.

Gelegentlich wird der Googlebot uns anstürmen, was dazu führt, dass Apache seinen Speicher voll auslastet und den Server zum Absturz bringt.

Wie kann ich das vermeiden?

    
lo_fye 25.08.2009, 13:55
quelle

5 Antworten

8
  • Registrieren Sie sich bei google webmaster tools, verifizieren Sie Ihre Seite und drosseln Sie den Google Bot nach unten
  • reiche eine Sitemap ein
  • Lesen Sie die Google Guildlines: (if-Modified-Since HTTP-Header)
  • Verwenden Sie robot.txt , um den Zugriff von Bot auf einige Teile der Website einzuschränken
  • Erstelle ein Skript, das die robot.txt in jedem $ [Zeitraum] ändert, um sicherzustellen, dass der Bot niemals zu viele Seiten gleichzeitig crawlen kann, während er gleichzeitig den gesamten Inhalt crawlen kann
Jean 25.08.2009, 14:19
quelle
8

Sie können festlegen, wie Ihre Website gecrawlt wird, indem Sie die Webmaster-Tools von Google verwenden. Sehen Sie sich speziell diese Seite an: Ändern der Crawling-Rate von Google

Sie können auch die Seiten einschränken, die der Google Bot mit einer robots.txt-Datei durchsucht. Es ist eine Einstellung für crawl-delay verfügbar, es scheint jedoch, dass nicht berücksichtigt wurde von Google.

    
Gavin Miller 25.08.2009 14:00
quelle
1

Registrieren Sie Ihre Website mit den Google Webmaster-Tools, mit denen Sie festlegen können, wie oft und wie viele Anfragen pro Sekunde googlebot versuchen sollte, Ihre Website zu indizieren. Google Webmaster-Tools können Sie auch beim Erstellen einer robots.txt-Datei unterstützen, um die Belastung Ihrer Website zu reduzieren.

    
Ronny Vindenes 25.08.2009 13:59
quelle
1

Beachten Sie, dass Sie die Crawl-Geschwindigkeit über die Google Webmaster-Tools (unter Site-Einstellungen) festlegen können, aber sie berücksichtigen die Einstellung nur für sechs Monate! Sie müssen sich also alle sechs Monate anmelden, um es erneut einzustellen.

Diese Einstellung wurde in Google geändert. Die Einstellung wird jetzt nur noch für 90 Tage gespeichert (3 Monate, nicht 6).

    
Patrick Gibson 14.10.2014 20:01
quelle
0

Sie können die Crawling-Geschwindigkeit in den Webmaster-Tools von Google konfigurieren.

    
Wienczny 25.08.2009 13:58
quelle

Tags und Links