Praktiken im Umgang mit bösen Robotern fordert, dass URLs kaufmännische Und-Zeichen enthalten wie "& amp;" anstelle von "&"

9

& amp; ist ein reserviertes Zeichen in html , also überall wo ich url's auf einen Pfad mit querystring habe, den ich setze & amp; statt & amp; damit ich gültiges HTML bekomme.

Es gibt viele verschiedene Crawler, die über die Website gehen und auf diese URLs zugreifen, aber sie verwenden keine html-Dekodiermethoden, um die richtigen URL-Werte zu erhalten, so dass sie Anfragen an meine Website stellen mit:

%Vor%

statt

%Vor%

Im Moment reagiere ich mit der Fehlerseite, da die Roboter, die diese Anfragen machen, für mich nicht von Interesse sind.

Aber meine Frage ist, was ist die beste Praxis, um diese Art von Anfragen zu behandeln?

Weißt du, ob es nützlich ist, diese Art von Anfragen zu bearbeiten? (Gibt es zum Beispiel irgendwelche populären Crawler oder Browser, die diese URLs nicht korrekt konvertieren?)

    
Dorin 18.06.2012, 14:05
quelle

2 Antworten

1

Ich denke, Sie können erwarten, dass jeder große Crawler mit gültigen maskierten URLs umgehen kann. Also werde ich mir keine Sorgen um den Rest machen.

Wenn Sie es wirklich mögen, dann sollten Sie Ihrem Apache oder dem, was Sie verwenden, Regeln hinzufügen. Dies kann jedoch zu anderen Problemen führen, wenn eine URL wirklich die Zeichenfolge & enthält und durch Ihre Umschreibungsregel für den Fehler durch & ersetzt wurde.

Meiner Meinung nach ist es besser, dies unberührt zu lassen. Es ist nicht deine Schuld und wenn du dich nicht wirklich um diesen Crawler kümmerst - na und? :)

    
Fabian Barney 27.06.2012, 08:57
quelle
-3

Ja & amp; ist ein reservierter Charakter, aber Sie werden es nicht in Website-Links einfügen.

Korrigieren

%Vor%

Falsch

%Vor%     
spike 03.07.2012 08:10
quelle

Tags und Links