Seltsame Zugriffe!
Thursday, 3. April 2008, 03:39:30
Da sehe ich im Security-Log eines Projektes den Zugriff des Googlebots auf eine den Directaccess verhindernde Page. Daß eine solche Seite natürlich nirgendwo von mir verlinkt ist, und die Bots der Suchmaschinen - nach Verifizierung - an der weiteren Sicherheitsstruktur vorbeigeleitet werden, ist natürlich klar. Somit entzieht sich eine solche Seite der natürlichen Wahrnehmung eines jeden Suchmaschinenbots.
Zunächst habe ich an einen gefakten Useragenten gedacht, dann an einen Fehler in der Sicherheitsstruktur, da frisch an dem betreffenden Projekt Erweiterungen vorgenommen wurden.
Alles negativ.
Übrig bleibt also nur die direkte Verlinkung dieser Seite durch fremde Hand.
Auf Contentklau abgerichtete Bots und andere böswillige Elemente landen natürlich auf die zu diesem Zweck eingerichteten Seiten. Tun sie dies völlig unkontrolliert, können natürlich auch Links zu diesen entstehen, denen die Bots der Suchmaschinen folgen. Bleibt also die Frage, war dieser Besuch des Googlebots die Folge eines unkontrollierten Contentklau's, oder war es böswillige Absicht eines konkurrierenden Webseitenbetreibers, um Seiten in Suchmaschinenindexe zu bringen, die dort nicht hineingehören (Hätte eh nicht geklappt, da die gesamte Sicherheitsstruktur auf noindex geschaltet ist)?
In meiner wohlentwickelten Paranoia tendiere ich natürlich zu Letzterem, obwohl ich Ersteres schon mehrfach aufgefunden habe.
Letzteres paßt mir auch von daher eher in den Kram, weil ich denke, daß es an der Zeit ist, den bekannten, böswilligen Elementen, endlich eine respekteinflößende Lektion zu erteilen.
Rein gefühlsmäßig sträube ich mich zwar dagegen, aber mein Verstand sagt mir, daß es sein muß. Und je länger ich das aufschiebe, um so mehr werden meine Maßnahmen zur Lachnummer. Und an dieser Stelle gerät mein Selbstbewußtsein doch erheblich unter Streß.
Mein Chef hat gerade erst vor 2 Tagen eine große Seite beim Contentklau (ca 900 Seiten wurden 1:1 kopiert) erwischt und nach kurzer Besprechung jetzt einen Anwalt eingeschaltet.
By Schalandra, # 3. April 2008, 07:40:33
Danke für den Comment.
Contentklau ist eine absolut üble Sache, fängt sehr oft mit Bilderklau an.
Oft findet man seinen Content auf ausländischen oder gar auf im Ausland anonym registrierten Webseiten wieder - da sticht einem die dahinterstehende Raubrittermentalität förmlich ins Auge.
Juristisch ist da leider nicht viel zu machen, weil da in der Regel nichts zu holen ist - man bleibt auf seinen Kosten sitzen.
Günstiger und schneller geht es bei einem wie von Dir beschriebenen Ausmaß, mit einem Spamreport an die Suchmaschinenbetreiber, beispielsweise Google: http://www.google.de/webmasters/spamreport.html
Generell als "Problematische Vorgehensweisen" erachtet Google:
Verborgener Text oder Links;
Irreführende oder sich wiederholende Wörter;
Die Seite stimmt nicht mit der Beschreibung von Google überein;
Cloaking;
Irreführende Umleitungen;
Brückenseiten;
Doppelt vorhandene Sites oder Seiten;
Ein Großteil dieser "Sünden" werden mittlerweile automatisch von dieser Suchmaschine erkannt und ausgefiltert, beispielsweise: "Doppelt vorhandene Sites oder Seiten". Der Haken daran ist, daß gerade bei diesem Beispiel, das Original im Ranking abgewertet wird, und die Raubkopie den "Phönix aus der Asche" mimt.
Bug oder Feature der Suchmaschine, das ist hier die Frage.
Vergleichbare Probleme traten bei Google mit der sogenannten 302er-Verlinkung auf, eine Weiterleitung mit dem Status 302, moved temporarily - Google hatte vergessen, den Header auszuwerten.
Dieses Problem findet seine Fortsetzung in der mißbräuchlichen Anwendung von sogenannten NPH-Proxies. Ein Problem, das Google über die Headerauswertung nicht lösen kann, da der Status 200 ok gesendet wird.
Die Lösung seitens Google wäre nach meiner unmaßgeblichen Meinung, immer dem Original den Vorrang zu geben.
Solange aber die aktuelle Praxis beibehalten wird, werde ich nicht brotlos.
Zu empfehlen sind also Maßnahmen, welche den automatisierten Contentklau unterbinden. Einige Webmaster empfehlen http://www.bot-trap.de/ - ich tue das nur sehr eingeschränkt, denn der Nachteil dieses Systems ist, daß hier nur gegen Bots und Proxies geschützt wird, die bereits negativ aufgefallen sind - man möge mich berichtigen, wenn ich da einem Irrtum anheimgefallen bin, oder der Fortentwicklung dieses Systems wesentlich hinterher hinke.
Das von uns entwickelte System wirkt anders:
Ausgewiesene Useragenten werden on the fly einer Plausibilitätsprüfung unterzogen. Liegen geringe Abweichungen vor, wird der Dokumentenauslieferung ein Captcha vorgeschaltet. Wird ein nicht erwünschter Zugriff eindeutig als solcher erkannt, wird eine Sperrseite präsentiert - im Wiederholungsfalle eine rein "weiße Weste", um den Traffic durch unkontrollierte Bots auf ein Minimum zu reduzieren.
Dieses Sicherungssystem kann jedoch - im Gegensatz zu bot-trap - nicht kostenlos zur Verfügung gestellt werden.
Und leider kann ein Nutzungsrecht derzeit auch nicht käuflich erworben werden. Die Gefahren der unerwünschten Reproduktion und der Entwicklung von Gegenmaßnahmen auf Seiten der "Raubritter", ist zu groß.
Somit ist derzeit die Nutzung dieses Systems auf die beteiligten Entwickler und einem sehr eingeschränkten Kreis von absolut vertrauenswürdigen Webmastern begrenzt.
Aber wir arbeiten auch an einem Remote-System und an einer Encrypted-Version.
By predonna, # 3. April 2008, 14:18:59
By Schalandra, # 3. April 2008, 15:11:35
hier noch ein Nachtrag:
Wir haben in der Vergangenheit auch des öfteren Grund zu der Annahme gehabt, daß kleine Internetdienstleister in Internet-Schwellenländer (China, ehemaliger Ostblock, Türkei, etc.) Content im Auftrag größerer Deutscher SEO-Firmen klauen, um die Projekte von deren Mitbewerbern zu spiegeln.
By predonna, # 3. April 2008, 17:36:13
By Schalandra, # 7. April 2008, 08:30:50
ja, ist mir bekannt. Aber was nützt es mir, wenn ich weiß, wo was liegt, was mir geklaut wurde? Der Schaden ist dann bereits eingetreten. Alles Wehklagen nützt nichts mehr.
Contentklau muß mittels geeigneter Routinen unterbunden werden. Wobei ich leider einräumen muß, daß dem manuellen Contentklau nicht beizukommen ist. Allerdings ist das eine sehr mühselige und eher abschreckende Arbeit für den Contentklauer.
Gerne würde ich hier einige PHP-Routinen veröffentlichen, die kein Bot und auch kein NPH-Proxy zu bewältigen vermag. Wir erkennen diese Schädlinge on-the-fly.
Aber wie es denn so ist, die Schädlinge würden entsprechend nach- und umgerüstet.
Als Beispiel mag dafür gelten, daß man noch vor nicht allzu langer Zeit davon ausging, daß Bots keinen Referrer haben.
Aktuelle Klaubots haben einen Referrer - echt oder gefaked, ist dabei unerheblich!
Sie heißen auch nicht mehr "Majestix" und wie die übrigen antiken Offlinereader benannt wurden, nein, sie heißen "Opera/9.27 (Windows NT 6.0; U; de)", "Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.13) Gecko/20080311 Firefox/2.0.0.13" und auch "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)".
Und wer es denn endlich geschafft hat, alle Schädlinge auszusperren, der wird dann feststellen, daß irgendwelche Schlauköpfe immer noch an den eigenen, mühsam erarbeiteten, unique content gelangen.
"Tja, wie machen die das bloß", wird man sich fragen. Die Antwort ist: Der Cache der Suchmaschinen. Ein eigentlich nützlicher Service der Suchmaschinen zur Wiederherstellung von versehentlich gelöschten Dateien, wird zur automatisierten Contentgenerierung mißbraucht.
Die Antwort darauf kann nur sein:
"<meta name="robots" content="noarchive">", oder kombiniert: "<meta name="robots" content="index,follow,noarchive">" in jedes HTML-Dokument.
Mindestens bei Google hält man sich an diese Anweisung.
Ein ebenfalls sehr beliebtes Einfallstor für Contentklauer und Spiegelbauer ist die Bildersuche von Google.
Wer also nichtplausible Zugriffe über die Bildersuche von Google hat, der sollte über entsprechende Sperren nachdenken.
By predonna, # 8. April 2008, 18:00:59
Wer sich denn so alles als "Googlebot" ausgibt:
Auszug aus unserem Googlebot-Log:
Mon 24 Mar 2008 4:02 - 81.169.185.xx - xxxxx-xxxx.com|
Request: www.------------.de/|
Referer: www.xxxxx-xxxx.com/pagerank.html|
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.10; +http://www.google.com/bot.html)|
Dieser, von mir eher als kindlich-naiv zu bewertende Zugriffsversuch auf einer von uns betreuten Domain, konnte natürlich keinen Erfolg haben.
Ich habe den Betreiber des anfragenden Hosts um Stellung gebeten, mit dem Ergebnis, daß dieser tatsächlich oder vorgeblich ahnungslos ist.
Bei einem solchen Zugriffsversuch, der eindeutig als der eines Bots identifiziert wurde, ergaben sich sofort folgende Fragen:
a) War es ein experimentierendes Scriptkiddy?
b) War es ein Test für weitere unseriöse Zugriffe?
c) Ging es um Contentklau oder Seitenspiegelung?
Punkt a) ließ sich in diesem Falle mit an Sicherheit grenzender Wahrscheinlichkeit ausschließen, der Zeitpunkt des Zugriffsversuchs spricht dagegen, sowie auch die Tatsache, daß es sich bei dem verifizierten Host nicht um ein homebased Konstrukt handelt.
Bleiben als Täter der Betreiber oder ein Dienstleister mit den erforderlichen Zugangsdaten übrig.
Und da lesen Sie richtig! Es gibt Hinweise darauf, daß gewisse Dienstleister für den Bereich: Webservices (Webdesigner, Suchmaschinenoptimierer, etc.), die Domains ihrer Kunden für eigene Zwecke mißbrauchen.
Angefangen bei einfachen Bots und Proxies, bis hin zu Konstrukten mit viralen Eigenschaften.
Punkt b) und c) können nicht beurteilt werden, und werden somit als potentieller Hintergrund angesehen.
By predonna, # 8. April 2008, 19:13:30