Seit den Anfangstagen von netplanet habe ich in Sachen Webserver-Auswertung fast durchgehend serverseitige Anwendungen am Start und immerhin seit 2004 den Webalizer. Webserver-seitige Statistiken haben den großen Vorteil, dass das Schreiben von Logfiles nahezu geräuschlos im Hintergrund des Webservers vonstatten geht und eine serverseitige Auswertung einst auch sehr lässig anzuschauen war.
Das funktionierte so lange, bis Weblogs und Kommentar-Spam kamen. Seit diesem Zeitpunkt beschäftigt sich früher oder später ein Webserver mit einem zu hostenden Weblog weitgehend nur noch mit Kommentar-Spam. Und „weitgehend“ ist ernst gemeint, denn als ich spaßeshalber einmal einen halben Tag dazu gebracht habe, die echten Apache-Weblogs nach eindeutigen Spuren von Versuchen, Kommentar-Spam abzulassen, durchforstete, traf mich der berühmt-berüchtigte Schlag – ich hätte eher nach Einträgen suchen sollen, die offensichtlich nicht Spam-Versuche sind, denn während dieses Weblog in der Woche normalerweise 3.000 bis 5.000 Pageviews zustandebringt, waren die Seitenaufrufe im Serverlog für die gleichen Zeiträume rund um den Faktor 10 höher. Wir reden davon, dass auf meinem Webserver für alle hier gehosteten Weblogs rund 90 % aller Seitenaufrufe purer Müll sind. Und ja, in dieser Rechnung ist berücksichtigt, dass Pageviews nicht Hits sind (Grafiken, RSS-Feed-Aufrufe und sonstige Dateien habe ich nicht mitgezählt). Solche Erkenntnisse erden. 🙁
Nun gibt es zwar für alle gängigen Web-Statistikprogramme auch mehr oder weniger ausführliche Filtermöglichkeiten, mit denen sich bekannte IP-Adressen von Kommentar-Spammer ausfiltern lassen, ebenso bestimmte Muster in den URL-Aufrufen. Nur: Was nützt diese Arbeit, wenn sich gerade die Liste der IP-Adressen ständig ändert? Schon zu meiner Zeit als Sysadmin bei einem ISP habe ich sehr schnell gelernt, dass die Pflege einer Installation einer Web-Statistik ein höchst undankbarer Job ist und einer gewaltigen Feineinstellung bedarf, um mit der Berechnung nicht den gesamten Server auszulasten. Bedanken tut sich für die Arbeit maximal der Chef, die meisten Kunden haben nicht ansatzweise eine Ahnung davon, was da im Hintergrund passieren muss, um eine aktuelle Web-Statistik zu produzieren.
Noch fataler wird es, wenn man der eigene Chef ist und man sich dann auch die Frage stellen darf, warum man eigentlich gegen eine elend mächtige Spammer-Front anzukämpfen versucht. Diese Frage habe ich vor einigen Wochen damit beantwortet, dass ich alles netplanetare nebenbei von unserer unternehmenseigenen Piwik-Installation auswerten lasse, also einem System, dass nach dem „Google-Analytics-Prinzip“ arbeitet: Im Seiten-Template meines Weblogs steckt ganz unten im Seitenfuß ein kleines Code-Schnipsel, der einen Aufruf in der Piwik-Installation erzeugt und alle notwendigen Aufrufparameter übermittelt.
Piwik bringt gleich eine ganze Reihe von Vorteilen mit: Die Spam-Aufrufe werden nicht mitgezählt, zudem pflegt die Piwik-Community solche Dinge wie Browser-, Betriebssystem- und Providerlisten. Alles Dinge, mit denen man sich einst mal gern beschäftigt hat. In der Zwischenzeit macht das alles nur noch wenig Spaß. Und noch weniger Sinn.
Schreibe einen Kommentar