robots.txt

Robots.txt (das Robots Exclusion Protocol) ist eine Textdatei, die im Stammverzeichnis einer Websitedomäne platziert wird, um kompatiblen Webrobotern (z. B. Suchmaschinen-Crawlern) Anweisungen darüber zu geben, welche Seiten gecrawlt und nicht gecrawlt werden sollen als andere Informationen wie einen Sitemap-Speicherort. In modernen Frameworks kann es nützlich sein, die Datei programmatisch zu generieren. Allgemeine Fragen zur Suchmaschinenoptimierung sind auf der StackExchange-Website von Webmasters besser geeignet.
4
Antworten

Googlebots Ignorieren von robots.txt? [geschlossen]

Ich habe eine Site mit der folgenden robots.txt im root: %Vor% Und Seiten innerhalb dieser Seite werden von Googlebots den ganzen Tag gescannt. Stimmt etwas nicht mit meiner Datei oder mit Google?     
05.12.2008, 18:08
2
Antworten

django Serving robots.txt effizient

Hier ist meine derzeitige Methode, robots.txt zu bedienen %Vor% Ich glaube nicht, dass dies der beste Weg ist. Ich denke, es wäre besser, wenn es nur ein reines wäre statische Ressource und statisch bedient. Die Struktur meiner Django-App is...
24.08.2013, 23:41
2
Antworten

Ausschließen des Testens der Subdomäne durch Suchmaschinen (mit SVN-Repository)

Ich habe: domain.com testing.domain.com Ich möchte, dass domain.com von Suchmaschinen gecrawlt und indiziert wird, aber nicht testing.domain.com Die Testdomäne und die Hauptdomäne teilen sich dasselbe SVN-Repository, daher bin ich mi...
18.07.2011, 20:18
1
Antwort

So konfigurieren Sie die robots.txt-Datei, um alle außer 2 Verzeichnisse zu blockieren

Ich möchte nicht, dass Suchmaschinen die meisten meiner Websites indexieren. Ich möchte jedoch, dass Suchmaschinen zwei Ordner (und ihre Kinder) indexieren. Dies ist, was ich eingerichtet habe, aber ich glaube nicht, dass es funktioniert, ich...
23.06.2011, 21:35
1
Antwort

Bestimmte Seitenverzeichnisse nicht zulassen, aber NICHT diese Seite selbst

Nehmen wir an, ich habe eine dynamische Seite, die URL's aus Benutzereingaben erstellt. Zum Beispiel: www.XXXXXXX.com/browse & lt; -------- (Durchsuchen der Seite) Jedes Mal, wenn ein Benutzer eine Abfrage eingibt, werden mehr Seiten ge...
25.12.2015, 20:29
3
Antworten

Wie kann ich das Problem "Googlebot kann nicht auf Ihre Website zugreifen" beheben?

Ich bekomme immer eine Nachricht über "In den letzten 24 Stunden hat der Googlebot beim Versuch, auf Ihre robots.txt zuzugreifen, 1 Fehler festgestellt. Um sicherzustellen, dass wir keine in dieser Datei aufgeführten Seiten crawlen, haben wir...
18.08.2014, 03:11
1
Antwort

Gibt es irgendeinen Grund, auf favicon.ico, apple-touch-icon und robots.txt keine 301 zu machen?

Ich möchte Anfragen für diese Ressourcen zu meinem CDN umleiten. Gibt es einen Grund, dies nicht zu tun?     
04.04.2012, 18:46