Auf Websites wie dieser kommen ja ständig Robots vorbei, also Scripte von fremden Servern, welche die Unterseiten einer Domain und vieles mehr scannen. Dabei verfolgen sie unterschiedliche Absichten.
Ein Teil dieses Bot-Traffics kommt durch die großen Suchmaschinen zustande. Allen voran Google, aber auch Bing, Yandex und andere. Das ist in der Regel etwas Erwünschtes, denn man möchte ja in der Suche auffindbar sein.
Geteilter Meinung kann man bei den Bots der großen KIs sein, wie OpenAI oder Anthropic. Deren Begehr ist es, an möglichst viele Texte zu kommen für ihre Trainings. Auch das mag in vielen Fällen okay sein, aber so mancher hat auch mit gutem Grund etwas dagegen.
Dann gibt es da die „Hacker“. Zumeist arbeiten die stumpf große Listen von korrumpierbaren Komponenten ab. Und sie schauen, ob sie irgendwas vorfinden, was sie dann im nächsten Schritt ausbeuten können. Mit stets aktueller Software und Abschaltung von allem, was die Site nicht braucht, ist man davor relativ sicher. Allerdings verursachen die recht viel Verkehr, das können schon mal an die tausend hintereinander abgefeuerte Anfragen sein.
Ein spannendes Sonderkapitel stellt das Fediverse – ein großer Zusammenschluss unabhängiger Social Media Server – dar. Hat man einmal damit zu tun gehabt, wird man das auch nicht so schnell wieder los. Dahinter steckt zwar generell keine böse Absicht, aber viele Betreiber solcher Server sind eben auch keine ausgewiesenen Experten. Und so gibt es da dann wiederkehrende Besucher, die sich zum Teil weder an robots.txt-Vorgaben halten noch eine Seite irgendwann wieder in Ruhe lassen, die offenbar gar nicht zu ihrem Netzwerk gehört. Ansprechpartner oder zentrale Instanzen sucht man meist vergebens. Die meisten dieser Art von Anfragen kommen übrigens nach wie vor vom Friendica-Netzwerk. Das folgt auch einer weitergeleiteten Hauptdomain und nervt am neuen Ort weiter, obwohl schon am alten nichts zu finden war.
Und dann ist da noch noch mein Liebling: SEOkicks. Laut eigener Beschreibung ein „Backlink Checker“. Soll er tun. Schaut man allerdings auf die Logfiles, dann sieht man, dass er offenbar die Seitenstruktur kennt – also die Namen sämtlicher Unterseiten, und sich letztere nach und nach anschaut. Dafür setzt er – zumindest bei mir – regelmäßig die URLS falsch herum zusammen. Sucht also nach etwas wie „seitenname/peter-kohlert.de“. Und wird natürlich niemals etwas finden. Das hat er allerdings schon eine geraume Zeit lang nicht bemerkt. Auch eine Art, seine Ressourcen einzusetzen.
All diese Beobachtungen kommen naturgemäß von einer kleinen Site wie meiner. Größere, kommerzielle Seiten werden wohl mehr und vielleicht noch andere Probleme haben. Ich verkaufe ja nichts, betreibe keinen Mailserver, habe keine Nutzerkonten oder Ähnliches. Insofern ist das eine eingeschränkte Sichtweise. Aber spannend ist es allemal, wer sich so alles auf Webseiten herumtreibt.
Update: noch ein lustiger Bot.