Long Tail in Sachen Krimiauflösung im Fernsehen.

Hier im Blog gibt es einige Evergreen-Artikel. Dazu gehören die Artikel, in denen beschrieben ist, wie dem iPhone die Synchronisation mit dem Google Kalender und Adressbuch beizubringen ist, die allein weit über 50 % der Suchanfragen für sich beanspruchen. Gleich danach kommt aber ein Artikel, der anfangs praktisch gar keine Relevanz hatte: Der Artikel mit der Lösung der ersten Staffel der dänischen Krimiserie Forbrydelsen, in Deutschland bekannt unter dem Namen „Kommissarin Lund“. Das liegt vor allem daran, dass Forbrydelsen zu den skandinavischen Krimiserien gehört, die sehr komplex daherkommen. Immerhin dauert die erste Staffel, die im Original aus 20 Folgen besteht, schlappe 1.100 Minuten. Wohlgemerkt: Die Staffel ist ein einziger Fall mit mehreren, ineinander verwobenen Geschichtssträngen. Die komplexe Geschichte führt dazu, dass die Auflösung ebenfalls komplex ist. Zudem überschlagen sich in der letzten Folge die Ereignisse dermaßen, dass ich damals nach der Erstausstrahlung im ZDF die Auflösung nochmal komplett gebloggt habe.

So ein Artikel, der ein sehr spezifisches Thema behandelt aber prinzipiell dauerhaft interessant ist, ist ein klassischer Fall für das Long-Tail-Phänomen. Kurze, relativ hohe Peaks umrahmen ein Thema, das die meiste Zeit jedoch kaum von Interesse ist. Und die kurzen Peaks sehen aus Sicht des Webstatistikprogramms Piwik, das mein Weblog permanent untersucht, folgendermaßen aus (Klick für die Großansicht):

Beachtet werden muss zunächst, dass die Statistikauswertung erst ab dem 1. April 2012 beginnt. Das normale, tägliche Grundrauschen bewegt sich zwischen 0 und 8 Seitenabrufen, die auf diesem Blog-Artikel landen, allesamt mit Begrifflichkeiten um „kommissarin lund“ etc. Auffallend sind zwei dicke Ausreißer, genau am 17. August 2012 mit 89 Abrufen und am 1. September 2012 mit 125 Abrufen. Ferner noch der 24. September mit 21 und der 21. Oktober mit 16 Seitenabrufen.

Und das hat seine genau definierbaren Gründe, denn in diesen Zeiträumen wurde die erste Staffel von Forbrydelsen laut fernsehserien.de im deutschsprachigen Raum im Fernsehen auf arte wiederholt:

  • Am Donnerstag, 16. und Freitag, 17. August die Folgen 1 bis 6
  • Am Donnerstag, 23. und Freitag, 24. August die Folgen 7 bis 13
  • Am Donnerstag, 30. und Freitag, 31. August die Folgen 14 bis 20

Und mit diesen Informationen passen die Peaks nun auch. Die Anfragenspitze am 17. August passt zum ersten Block der Folgen 1 bis 6, weil die letzte Folge noch am 17. August um 23:10 Uhr endete und sich dann genügend Zuschauer im Web auf die Suche nach der Lösung machten. Der zweite Block der Folgen 7 bis 13 fällt nicht besonders groß auf, dafür jedoch der dritte Block der Folgen 14 bis 20. Und dass der Peak dieses dritten Blocks erst am 1. September zu messen ist, liegt daran, dass das Ende der letzten Folge an diesem Tag um 0:10 Uhr lag und damit im nächsten Tag.

Von den Besuchern, die in den Peak-Zeiten aufgrund der Suche nach der Lösung auf das Blog kamen, habe ich allerdings verhältnismäßig wenig, was in der folgenden Auswertung, ebenfalls aus Piwik, ersichtlich ist:

Dort ist auf der linken Seite eingeblendet, mit welchen hauptsächlichen Begrifflichkeiten in dem gesamten Zeitraum der vergangenen Monate die Besucher von Suchmaschinen aus auf den Artikel gekommen sind. Auf der rechten Seite eingeblendet ist der Weg, den die Besucher auf meinem Blog dann danach gegangen sind. In der Mitte der Grafik findet sich die eigentliche Auswertung.

Im Klartext interpretiert bedeutet das, dass die insgesamt 1.347 Seitenabrufe von 993 Suchmaschinenanfragen initiiert wurden und 1.193 dieser Seitenabrufe auch direkt nach dem Lesen des Artikels wieder zum Ausstieg führten. Nur 35 Anfragen führten zu weiteren Seitenabrufen im Blog – eine Ausstiegsrate von fast 89 %, das allerdings bei diesem sehr spezifischen Spezialthema so auch zu erwarten ist.

Seltsames auf dem Webserver.

Eigentlich sind wir von einem Webserver und der darauf stationierten Website eines Kunden folgende Besucherdimensionen gewohnt. Ein wunderbar gezeichnetes, EKG-artiges Diagramm – zumindest bis auf die letzten beiden Tage:

Eine fast verdreifachte Besucherzahl ist selbst für einen Montag eine höchst seltsame Geschichte. Es wurde bei näherer Analyse aber noch viel merkwürdiger. Denn rund 600 Besuche (und damit ziemlich genau das, was an diesem Montag zusätzlich als Besucher kam) waren nahezu identisch: Sie kamen von einem MacOS-Rechner und einem dort installierten Firefox 3.6 und jeder Aufruf bestand aus dem Abruf einer einzigen Seite. Und das dann auch ziemlich genau im 30-Sekunden-Takt, den halben Tag lang. Gut, denke ich, das wird wohl ein Rechner sein, auf dem ein Firefox etwas Amok läuft, beispielsweise mit einem Addon zum automatischen Refresh einer aufgerufenen Seite.

Was allerdings merkwürdig war, war der Absender: Es war nämlich nicht eine einzige IP-Adresse, sondern tatsächlich genau so viele IP-Adressen, wie zusätzliche Aufrufe, also über 600 verschiedene IP-Adressen. Und, damit nicht genug: Alle diese IP-Adressen stammen aus dem IP-Adresspool von Alice/Telefonica.

Kurzum: Wir haben das Rätsels Lösung nicht gefunden. Ich vermute jedoch, dass da eine Firefox-Installation Und/oder der MacOS-Rechner und/oder der DSL-Anschluss Amok läuft und der Rechner ziemlich genau alle 30 Sekunden einen Seitenabruf über eine PPPoE-Verbindung initiiert, die jedes Mal neu verbunden wird.

Was kann man dagegen tun? Sehr gute Frage – eigentlich nichts sinnvolles. Einzelne IP-Adressen sperren, macht keinen Sinn, dazu sind es schlicht zu viele und dazu gibt es auch noch keine Systematik, schließlich kommen die IP-Adressen aus einem riesigen IP-Adresspool. Übrig bliebe nur auf dem Webserver die Sperrung des gesamten, betroffenen IP-Adressblocks, das wäre jedoch unverhältnismäßig gewesen. Einzig eine Beschwerde an den ISP wäre naheliegend, wenn auch sehr aufwendig. Bis der ISP das Problem gelöst bekommt …

Wir hatten Glück, das Problem verschwand Dienstagmittag genauso schnell, wie es gekommen war. Dienstagvormittag fing es zwar wieder an, irgendwann hörte es dann aber von allein wieder auf.

Bye-bye, webserver-basierte Statistikauswertung.

Seit den Anfangstagen von netplanet habe ich in Sachen Webserver-Auswertung fast durchgehend serverseitige Anwendungen am Start und immerhin seit 2004 den Webalizer. Webserver-seitige Statistiken haben den großen Vorteil, dass das Schreiben von Logfiles nahezu geräuschlos im Hintergrund des Webservers vonstatten geht und eine serverseitige Auswertung einst auch sehr lässig anzuschauen war.

Das funktionierte so lange, bis Weblogs und Kommentar-Spam kamen. Seit diesem Zeitpunkt beschäftigt sich früher oder später ein Webserver mit einem zu hostenden Weblog weitgehend nur noch mit Kommentar-Spam. Und „weitgehend“ ist ernst gemeint, denn als ich spaßeshalber einmal einen halben Tag dazu gebracht habe, die echten Apache-Weblogs nach eindeutigen Spuren von Versuchen, Kommentar-Spam abzulassen, durchforstete, traf mich der berühmt-berüchtigte Schlag – ich hätte eher nach Einträgen suchen sollen, die offensichtlich nicht Spam-Versuche sind, denn während dieses Weblog in der Woche normalerweise 3.000 bis 5.000 Pageviews zustandebringt, waren die Seitenaufrufe im Serverlog für die gleichen Zeiträume rund um den Faktor 10 höher. Wir reden davon, dass auf meinem Webserver für alle hier gehosteten Weblogs rund 90 % aller Seitenaufrufe purer Müll sind. Und ja, in dieser Rechnung ist berücksichtigt, dass Pageviews nicht Hits sind (Grafiken, RSS-Feed-Aufrufe und sonstige Dateien habe ich nicht mitgezählt). Solche Erkenntnisse erden. 🙁

Nun gibt es zwar für alle gängigen Web-Statistikprogramme auch mehr oder weniger ausführliche Filtermöglichkeiten, mit denen sich bekannte IP-Adressen von Kommentar-Spammer ausfiltern lassen, ebenso bestimmte Muster in den URL-Aufrufen. Nur: Was nützt diese Arbeit, wenn sich gerade die Liste der IP-Adressen ständig ändert? Schon zu meiner Zeit als Sysadmin bei einem ISP habe ich sehr schnell gelernt, dass die Pflege einer Installation einer Web-Statistik ein höchst undankbarer Job ist und einer gewaltigen Feineinstellung bedarf, um mit der Berechnung nicht den gesamten Server auszulasten. Bedanken tut sich für die Arbeit maximal der Chef, die meisten Kunden haben nicht ansatzweise eine Ahnung davon, was da im Hintergrund passieren muss, um eine aktuelle Web-Statistik zu produzieren.

Noch fataler wird es, wenn man der eigene Chef ist und man sich dann auch die Frage stellen darf, warum man eigentlich gegen eine elend mächtige Spammer-Front anzukämpfen versucht. Diese Frage habe ich vor einigen Wochen damit beantwortet, dass ich alles netplanetare nebenbei von unserer unternehmenseigenen Piwik-Installation auswerten lasse, also einem System, dass nach dem „Google-Analytics-Prinzip“ arbeitet: Im Seiten-Template meines Weblogs steckt ganz unten im Seitenfuß ein kleines Code-Schnipsel, der einen Aufruf in der Piwik-Installation erzeugt und alle notwendigen Aufrufparameter übermittelt.

Piwik bringt gleich eine ganze Reihe von Vorteilen mit: Die Spam-Aufrufe werden nicht mitgezählt, zudem pflegt die Piwik-Community solche Dinge wie Browser-, Betriebssystem- und Providerlisten. Alles Dinge, mit denen man sich einst mal gern beschäftigt hat. In der Zwischenzeit macht das alles nur noch wenig Spaß. Und noch weniger Sinn.

Zugriffsstatistiken.

Gestern habe ich mich endlich wieder einmal um die Webstatistiken von netplanet (also sowohl von den Lexikonseiten, als auch von diesem Blog) gekümmert und das aktuelle Release des Webalizer-Forks von Stone Steps heruntergeladen und installiert. Stone Steps ist eine kleine, kanadische Firma, die sich vor Jahren erbarmt hat, den damals brachliegenden Code des originalen Webalizers aufzuräumen und weiter zu entwickeln. Und das ist ihnen auch gelungen, denn dieser Fork ist der beste und gepflegteste von allen und übertrifft den originalen Webalizer, der nun seit letztem Dezember auch wieder gelegentlich gepflegt wird, um Universen.

Nachdem das getan war, habe ich der frischen Installation mal meinen Bestand an alten netplanet-Logfiles zum Fressen daherdrapiert und nach rund zwei Stunden waren fünf Jahre netplanet-Zugriffe von Lexikon und knapp zwei Jahre Zugriffe dieses Blogs verwurstet. Der alte Käse ist dabei gar nicht so interessant, eher erschüttert haben mich die aktuellen Werte der letzten Monate. In der Zwischenzeit ist es nämlich so, dass das Blog in praktisch allen Vitalwerten das Lexikon schon längst hinter sich gelassen hat. Hier mal die Werte vom März 2009 im direkten Vergleich:

Lexikon Blog
Hits 1.017.000 680.000
Pageimpressions 72.300 176.000
Übertr. Dateien 933.000 630.000
Datenverkehr 2,7 GB 6,5 GB

Die höhere Zahl von Hits und übertragenen Dateien vom Webserver des Lexikons ergeben sich durch den Umstand, dass eine Lexikonseite deutlich mehr Grafikelemente lädt, als im Blog. Das könnte man sicherlich optimieren, wenn ich mich endlich mal dazu aufraffen würde, das Lexikon auf ein CMS umzustellen.