Google sieht etwas, das es nicht sehen sollte. Warum?

7

Aus irgendeinem mysteriösen Grund hat Google diese beiden Adressen indiziert, die zu derselben Seite führen:

/etwas/some-text-1055.html

und

/index.php?pg=something&id=1055

(Kurz gesagt - die Seite hat seit ihrer Einführung freundliche URLs, ich habe keine Ahnung wie Google die "index.php?" URL gefunden hat - es gibt "unfreundliche" URLs nur im Content Management System, welches Passwort- eingeschränkt)

Was kann ich tun, um die Situation zu lösen? (Ich habe etwa 1000 Seiten, die doppelt indiziert sind.) Jemand hat mir gesagt, ich solle "disallow: index.php?" in der robots.txt-Datei. Richtig oder falsch? Irgendwelche anderen Vorschläge?

    
Ionuț G. Stan 13.03.2009, 20:12
quelle

6 Antworten

10

Sie würden sich wundern, wie umfassend und schnell die Google Bots den Inhalt der Website indexieren. Dies, kombiniert mit vielen CMS-Systemen, die unbeabsichtigte Seiten / Links erzeugen, die es wahrscheinlich machen, dass diese Links zu einem bestimmten Zeitpunkt offengelegt wurden, ist der wahrscheinlichste Schuldige. Es ist auch möglich, dass Ihr Administrationsbereich nicht so sicher ist, wie Sie denken, der Google Bot ist auf diese Weise durchgekommen.

Die gut erzogenen und empfohlenen Google Dinge zu tun sind hier

  1. Wenn möglich, erstellen Sie 301-Weiterleitungen von Ihren Query-String-Stil-URLs zu Ihren kanonischen Stil-URLs. Das sagst du "hey da, Webbot / Browser, der Inhalt, der sich unter dieser URL befand, ist jetzt unter dieser anderen URL"

  2. Blockiert den Inhalt der Abfragezeichenfolge in Ihrer robots.txt. Das ist wie fragen die Spider oder andere automatisierte Programme "Hey, bitte sieh dir das nicht an. Das sind nicht die URLs, nach denen du suchst"

    >
  3. Google ermöglicht Ihnen jetzt, eine kanonische URL über a anzugeben & lt; link / & gt; Tag oben auf Ihrer Seite. Erwäge, diese hinzuzufügen.

Ob es gut ist, sich gut zu benehmen, ist das "Richtige", was man tun kann: Google-Rankings ... wer weiß. Nur "Google" weiß, wie ihre Algorithmen jetzt funktionieren und wird in der Zukunft funktionieren, und von Google meine ich eine Gruppe von Ingenieuren und Führungskräften mit widersprüchlichen Zielen, wie die Suche funktionieren sollte.

    
Alan Storm 13.03.2009, 20:55
quelle
7

Google bietet nun eine Möglichkeit, eine Seite kanonische URL angeben. Sie können den folgenden Code in Ihre HTML verwenden Google Ihre kanonische URL zu sagen:

%Vor%

Sie können mehr über kanonische URLs auf Google auf ihrem Blog-Post über das Thema gelesen, hier: Ссылка Laut dem Blogpost, Ask.com, Microsoft Live Search und Yahoo! Alle unterstützen das kanonische Tag.

    
sjstrutt 13.03.2009 22:56
quelle
3

Wenn Sie Sitemap Generatoren verwenden, um den Search Engines einzureichen , werden Sie auch in ihnen nicht zulassen wollen. Sie sind wahrscheinlich, wo Google Ihre Links erhalten hat, vom Crawlen Ihres Ordners und vom Überprüfen Ihrer Protokolle.

    
Jeremy L 13.03.2009 20:15
quelle
3

Überprüfen Sie besser, welcher URI angefordert wurde ( $_SERVER['REQUEST_URI'] ) und leiten Sie um, wenn es /index.php war.

    
Gumbo 13.03.2009 20:15
quelle
1

Das Ändern von robots.txt wird nicht helfen, da die Seite bereits indiziert ist.

Am besten verwenden Sie eine permanente Weiterleitung (301).

Wenn Sie eine Seite, die einmal von Google indexiert wurde, entfernen möchten, ist die einzige Möglichkeit, mehr oder weniger, eine 404-Nachricht zu erzeugen, die nicht gefunden wurde.

    
stpe 13.03.2009 21:27
quelle
1

Ist es möglich, dass Sie ein Formular an eine ähnliche URL senden und Google es einfach von der Quelle abruft?

    
MK_Dev 13.03.2009 23:06
quelle

Tags und Links