Wie einige Websites mit gefälschten Links in den Suchergebnissen angezeigt werden

8

In diesen Tagen stoße ich auf mehrere Google-Suchergebnisse, die Websites mit Links enthalten, die genau mit meinen Suchbegriffen übereinstimmen. Wie ist es möglich, dass die Websites ihren Inhalt dynamisch ändern oder eher, wie sie Google dazu bringen, ihre Seite für mein Keyword zu indexieren? Ich habe über Content-Farmen gelesen, aber das scheint keine richtige Antwort zu sein. Kann mir jemand sagen, wie diese Technik heißt? Ich werde versuchen, mehr darüber zu verstehen.

    
Gopal 03.11.2011, 03:39
quelle

2 Antworten

8

Mein Verständnis ist, dass der einzige Weg, um auf Google oder eine andere Indizierungs-Engine zu gelangen, darin besteht, dass der Roboter Ihre Website tatsächlich crawlt und Ergebnisse generiert. Natürlich kann Google dynamische Websites crawlen:

Aber ich finde das eine evolutionäre und nicht revolutionäre Veränderung in Bezug auf Ihre Frage.

Was ich denke hinter den Kulissen passiert ist die Kombination dieser Dinge:

  • Inhaltsindex
  • Vorbereiteter Index
  • Von Nutzern eingereichter Inhalt
  • Referrer Suchupdates

Ich werde versuchen, jedes von diesen auf einer fiktiven Seite zu erklären, die Musik verkauft - Sie haben viele Beispiele, um die Erfahrung zu vergleichen. Es wird natürlich auf der Domain example.com sein.

Inhaltsindex

Offensichtlich haben Sie als Website, die etwas anbieten möchte, tatsächlich einen Inhalt. Normalerweise gruppiert man diesen Inhalt irgendwie. Nehmen wir an, unsere Musikseite kann Inhalte nach verschiedenen Kategorien gruppieren:

  • Autor
  • Musikgenre
  • Benutzer eingereicht
  • Inhaltsbewertungen

Jeder von diesen kann abstrakt als ein Tag dargestellt werden. Zum Beispiel könnte unsere Seite example.com/tags/ Eagles für Eagles oder example.com/tags/rock für alle Rockbands haben. Google könnte diese indizieren, so dass jede mögliche Suche einen Link zu unserer Seite ergeben könnte.

Vorbereiteter Index

Vorbereiteter Index ist ähnlich, ist aber ein generischer Index anstelle von echtem Inhalt. Dies kann auf verschiedene Arten vorbereitet werden, zum Beispiel:

  • Nimm ein Wörterbuch und füge alle Wörter hinzu
  • Crawl ein paar Millionen Seiten aus dem Web (möglicherweise mit Links von Suchmaschinen zur Verfügung gestellt!) und oft wiederholte Sätze von dort
  • Erhalte Inhalte aus kostenlosen Foren
  • Benutze Wikipeda
  • Holen Sie sich Text aus frei verfügbaren Büchern, z. B. aus dem Project Gutenberg

Unsere Website würde zum Beispiel Wörter aus Texten erhalten, die mit Musik in Verbindung stehen, und ähnliche Tags wie die vorherigen erstellen. Z.B. nur durch das Crawlen der Rockmusik Seite auf Wikipedia, können Sie viele Tags erhalten.

Benutzer eingereichter Inhalt

Dies ist etwas, das normalerweise nach dem Start Ihrer Website angezeigt wird. Nehmen wir an, wir setzen ein Suchfeld auf unsere Seite und dann kommen Nutzer und tippen "Rockmusik" ein. Doh, das wussten wir schon, also nichts Gutes von dieser Suche. Nehmen wir an, wir gehen durch unsere Web-Server-Protokolle und sehen einige Suchen nach langeleik . Nun, das wäre etwas, was wir vorher nicht indexiert hätten. Cool, nur ein anderes Tag auf unserer Website generiert.

Natürlich weiß Google das nicht - daher erstellen wir einen Eintrag in unserer Sitemap und nach einem weiteren Googlebot-Crawling. Wenn ein Nutzer bei Google nach "langeleik" sucht, kann einer der Links ein Link zu example.com/tags/langeleik sein.

Es gibt andere und möglicherweise wesentlich wertvollere Formen der Benutzereingabe - Kommentare, Forenbeiträge usw. Daher gibt es viele generische Foren, die keinen anderen Zweck haben als Hosting-Foren. Es ist eine großartige Datenquelle und Sie erhalten neue Inhalte kostenlos.

Am Ende sollte all dies auf Ihre Site-Sitemap gehen. Sie können riesige Sitemaps haben, sehen Sie dies:

Empfehlungen

Die letzte Sache ist Empfehlungen. Nachdem Ihre Website eingerichtet wurde, werden einige der Google-Suchanfragen direkt an Sie weitergeleitet. Das ist, wenn Sie den HTTP-Referer-Header nutzen können (ja, es ist ein Rechtschreibfehler - überprüfen Sie es auf Wikipedia ), siehe das:

Beachten Sie, dass die Google-Suche beides ist:

  • Unvollständig
  • Fuzzy

Somit können Sie oben nach "langeleik" suchen, aber einige der Links haben den Titel von z.B. "Langeleik und Harpe". Nichts Ungewöhnliches, aber beachten Sie auch die Rückseite - wenn Sie nach "langeleik und harpe" suchen, werden nicht nur alle Seiten mit beiden Begriffen gefunden, sondern auch Seiten mit der einen oder anderen Seite. Wenn wir für Harpe, aber nicht für Langeleik wissen, und jemand nach "langeleik und harpe" sucht, werden wir durch HTTP Referer header einen q parameter wie q=langeleik+harpe bekommen. Cool - nur ein Wort zu unserer Sitemap hinzugefügt, wenn wir wollen.

Beachten Sie, dass Sie bei der Suche nach "Adlern" alles von Vögeln über NFL-Teams bis hin zu einer Rockband bekommen können. Auch wenn wir eine Musikseite sind, können wir unseren Horizont (falls gewünscht) auf die neuesten NFL-Nachrichten ausdehnen - etwas, das völlig unabhängig und für einige Seiten sehr nützlich ist.

Fazit - es ist eine Illusion

Ich betrachte die Kombination all dieser sehr reichen Sitemap-Quellen. Mit den oben genannten Techniken können Sie sehr einfach Millionen einzigartiger Tags generieren. Daher wird "alles", das Sie eingeben, auf example.com/tags gefunden.

Sie müssen jedoch beachten, dass dies nur eine Illusion ist. Zum Beispiel, wenn Sie nach "ertfghedctgb" suchen (leicht auf regulären QWERTY-Tastatur getippt - ert + fgh + edc + tgb), werden Sie wahrscheinlich nichts von Google bekommen (ich derzeit nicht). Es war einfach nicht üblich genug, dass irgendjemand dies in ihre Sitemaps aufnehmen konnte (oder nicht genug, um von Suchmaschinen indexiert zu werden).

    
icyrock.com 29.03.2012, 02:28
quelle
1

Alle Browser und Crawler senden bei jeder Anfrage einen so genannten HTTP_USER_AGENT-String an den Webserver, sofern er nicht absichtlich von der Software hinzugefügt wird. Diese Zeichenfolge identifiziert, welcher Browser verwendet wird, welche Version es ist, Render Engine und einige weitere Details. (Siehe Ссылка )

Der Webserver kann den HTTP_USER_AGENT lesen und den bereitgestellten Inhalt ändern. Zum Beispiel wird es als Teil der Erkennung, ob Sie auf einem Handheld-Gerät oder einem großen Bildschirm sind, in welchen Fällen möchten Sie möglicherweise ein anderes Layout der gegebenen Webseite wollen.

Die Leute investieren viel Geld in den Traffic ihrer Seiten, insbesondere durch die großen Suchmaschinen wie Google und Bing. Der Begriff SEO, der für Search Engine Optimization steht, ist eine Technik, bei der der Besitzer der Webseite seinen Inhalt optimiert, um es den Suchmaschinen leicht zu machen, relevante Treffer zu geben. Wenn Sie eine komplexe Website mit viel JavaScript und Ajax verwenden, möchten Sie vielleicht den Suchmaschinen eine statische Seite bereitstellen, damit sie Ihren Inhalt lesen können.

Böswillige Websites bieten den Suchmaschinen manchmal automatisch generierten, SEO-optimierten Inhalt, um bei den Suchanfragen einen hohen Rang einzunehmen. Stattdessen liefern sie menschlichen Nutzern eine einfache Seite mit Anzeigen, um den Umsatz zu steigern.

Diese Antwort wird als eine Alternative zu einer Antwort bereitgestellt, bei der normaler dynamischer Inhalt, wie bereits von icyrock-com beschrieben, der Grund dafür ist, eine andere Seite zu bekommen, als Google angibt.

    
jornare 02.04.2012 07:20
quelle

Tags und Links