Ich betreibe eine Website, die verschiedene Daten im Diagramm- / Tabellenformat für die Leser zur Verfügung stellt. Kürzlich habe ich festgestellt, dass die Anfragen an die Website, die von Google Docs stammen, zugenommen haben. Betrachtet man die IPs und den User Agent, scheint es von Google-Servern zu stammen - Beispiel-IP-Lookup hier .
>
Die Anzahl der Treffer liegt im Bereich von 2.500 bis 10.000 Anfragen pro Tag.
Ich nehme an, dass jemand ein oder mehrere Google Tabellen erstellt hat, die Daten von meiner Website scrappen (möglicherweise unter Verwendung der IMPORTHTML Funktion oder ähnliches). Ich würde es vorziehen, dass dies nicht passiert ist (weil ich nicht wissen kann, ob die Daten richtig zugeordnet werden).
Gibt es eine bevorzugte Möglichkeit, um den von Google unterstützten / genehmigten Traffic zu blockieren?
Ich möchte lieber nicht basierend auf IP-Adressen blockieren, da sich das Blockieren von Google-Servern falsch anfühlt und zu zukünftigen Problemen oder IPs führen könnte. Im Moment blockiere ich (403 Status zurücksendend) basierend auf User Agent, der GoogleDocs
oder docs.google.com
enthält.
Der Traffic kommt derzeit hauptsächlich von 66.249.89.221 und 66.249.89.223, immer mit dem User-Agent Mozilla/5.0 (compatible; GoogleDocs; apps-spreadsheets; http://docs.google.com)
Als zweite Frage: Gibt es eine Möglichkeit, das Dokument oder seinen Kontoinhaber zu verfolgen? Ich habe Zugriff auf die URLs, auf die sie zugreifen, aber bei den Anfragen kann kaum etwas anderes passieren Proxy über die Google Docs-Server (kein Referer, Cookies oder andere ähnliche Daten in den HTTP-Protokollen).
Danke.