Nicht-englische (ASCII) Zeichen in der URL für SEO zulassen?

8

Ich habe viele UTF-8-Inhalte, die ich für SEO-Zwecke in die URL einfügen möchte. Zum Beispiel, Post-Tags, die ich in th URI aufnehmen möchte ( site.com/tags/id/TAG-NAME ). Von den Standards sind jedoch nur ASCII-Zeichen zulässig.

  

Zeichen, die in einem URI zulässig sind   aber keinen reservierten Zweck haben   als nicht reserviert bezeichnet. Diese beinhalten   Groß-und Kleinbuchstaben,   Dezimalziffern, Bindestrich, Punkt,   Unterstrich und Tilde.

Die Lösung scheint zu sein für:

  • Konvertiere die Zeichenkette in a Sequenz von Bytes mit dem UTF-8 Kodierung
  • Konvertiere jedes Byte, das ist kein ASCII-Buchstabe oder -Ziffer für% HH, wo HH ist der hexadezimale Wert von das Byte

Allerdings wandelt das die lesbaren (und SEO-wertvollen) Wörter in Hokuspokus . Ich frage mich also, ob Google immer noch schlau genug ist, um in URLs zu suchen, die verschlüsselte Daten enthalten - oder wenn ich versuchen sollte, diese nicht-englischen Zeichen in Semi-ASCII-Gegenstücke umzuwandeln (was bei lateinischen Sprachen helfen könnte)? / p>     

Xeoncross 06.01.2010, 19:23
quelle

2 Antworten

8

Erstens interessieren sich Suchmaschinen nicht wirklich für die URLs. Sie helfen Besuchern: Besucher verlinken auf Seiten und Suchmaschinen kümmern sich darum. URLs sind leicht zu spammen, wenn sie interessiert wären, gäbe es einen Anreiz für Spam. Keine großen Suchmaschinen wollen das. Das allinurl: ist nur eine Funktion von Google, um fortgeschrittenen Benutzern zu helfen, nicht etwas, das in organischen Rankings berücksichtigt wird. Alle Vorteile, die Sie durch die Verwendung einer natürlicheren URL erhalten, kommen wahrscheinlich als Nebeneffekt der PR von einer minderwertigen Suchmaschine, die Ihre Website indiziert - und es gibt einige Hinweise, dass dies mit dem Erscheinen von negativer PR auch.

Aus Google Webmaster-Zentrale

  

Heißt das, ich sollte es vermeiden   dynamische URLs überhaupt neu schreiben?

     

Das ist   unsere Empfehlung, es sei denn Ihre   Umschreibungen beschränken sich auf das Entfernen   unnötige Parameter, oder Sie sind   sehr fleißig beim Entfernen aller   Parameter, die Probleme verursachen könnten.   Wenn Sie Ihre dynamische URL in umwandeln   Lass es statisch aussehen, du solltest es sein   bewusst, dass wir es vielleicht nicht können   interpretiere die Informationen korrekt in   alle Fälle. Wenn Sie ein   statisches Äquivalent Ihrer Website, Sie   Vielleicht möchten Sie die Transformation in Betracht ziehen   der zugrunde liegende Inhalt durch eine a   Ersatz, der wirklich statisch ist. Ein   Beispiel wäre es, Dateien für zu erzeugen   alle Wege und machen sie zugänglich   irgendwo auf deiner Website. Wie auch immer, wenn   Sie verwenden URL-Rewriting (eher   als eine Kopie des Inhalts) zu   erzeugen statisch aussehende URLs von einem   dynamische Website, könnten Sie Schaden anrichten   eher als gut. Fühlen Sie sich frei zu dienen   Wir haben Ihre standardmäßige dynamische URL und wir   findet automatisch die Parameter   welche sind unnötig.

Ich persönlich glaube nicht, dass es wichtig ist, ein bisschen mehr durchzuklicken und den Benutzern zu helfen. Soweit Unicode, verstehst du nicht, wie das funktioniert: Die Anfrage geht an das hexadezimierte Unicode-Ziel, aber die Rendering-Engine muss wissen, wie sie damit umgehen soll, wenn sie sie zu etwas visuell Ansprechendem dekodieren möchte. Google rendert (alias entschlüsselt) Unicode (encoded) URLs richtig .

Einige Browser machen dies etwas komplizierter, indem sie immer den Hostnamen-Teil kodieren, weil Phishing-Angriffe mit Ideographen funktionieren, die gleich aussehen .

Ich wollte Ihnen ein Beispiel dafür zeigen, hier ist eine Anfrage an Ссылка herausgegeben von wget:

%Vor%

Wie Sie sehen können, wird wget wie jeder andere Browser das Ziel für Sie url-codieren und die Anfrage an das url-codierte Ziel weiterführen. Die url-decodierte Domain existiert nur als visuelle Annehmlichkeit.

    
Evan Carroll 29.01.2010, 03:09
quelle
1

Weißt du, in welcher Sprache alles sein wird? Ist alles auf Latein basiert?

Wenn ja, würde ich vorschlagen, eine Art Nachschlagetabelle zu erstellen, die UTF-8 nach Möglichkeit in ASCII umwandelt (und nicht kollidiert). So etwas würde Ź in Z und so umwandeln, und wenn es eine Kollision oder gibt das Zeichen existiert nicht in Ihrer Nachschlagetabelle, dann verwendet es nur% HH.

    
Earlz 28.01.2010 00:25
quelle

Tags und Links