Von der so genannten Anonymität von Suchmaschinen.

Schon immer einmal gefragt, wie eigentlich eine Suchmaschine entscheidet, welche Seite zu einem bestimmten Stichwort relevant ist und welche nicht? Du denkst, das macht die Programmlogik einer Suchmaschine? Die berühmte Blackbox mit den vielen, ultrageheimen Algorithmen?

Ich bin da inzwischen ketzerisch und sage: Eine Suchmaschine macht nur das grobe Ranking, also nur eine grobe Auswertung, welche Seite zu einem bestimmten Stichwort relevant ist und welche nicht. Die Feinarbeit machen die Logikmodule, die am ehesten verstehen und entscheiden können, um was es in einer Web-Seite geht, nämlich die Nutzer der Suchmaschine. Wie meinen?

Wer sich den Quelltext einer x-beliebigen Ergebnisseite einer Suchmaschine anschaut, wird zunächst augenscheinlich erstaunt über die Effizienz der Ergebnisseite sein: Google schafft es in drei Zeilen – von der die dritte Zeile allerdings mehrere tausend Zeichen lang ist, in der Regel mindestens 15.000 Zeichen. Vom reinen HTML-Code kommt so eine Ergebnisseite auf eine Größe von 24 bis 27 Kilobytes. Es lohnt sich jedoch allemal, sich so eine Ergebnisseite einmal näher anzuschauen und sich auch mal die Mühe zu machen, so eine Seite lokal abzuspeichern, die Zeilenumbrüche manuell einzufügen und sich das mal anzuschauen, was zwischen HTML-Tags und CSS-Definitionen noch alles dabei ist, nämlich ein gehöriges Stückchen JavaScript, der es in sich hat.

Fangen wir aber von vorne an: Du gehst auf die Startseite von Google, gibst ein Suchwort an, lässt dir die Ergebnisse anzeigen. Wenn nun der nicht ganz dumme Nutzer auf einen der zehn Linkvorschläge mit dem Mauspfeil fährt, sieht er in seinem Browser unten in der Statuszeile für gewöhnlich die Zieladresse des Linkvorschlages:

Also, denkt sich der nicht ganz so dumme Nutzer, ist das ein einfacher Hyperlink zur Zielseite, ohne jegliche Hintertüre. Ist es das? Der Quellcode des Linkes spricht eine leicht andere Sprache:

<a href="http://www.netplanet.org/adressierung/subnetting.shtml" class=l onmousedown="return clk(this.href,'','','res','6','')">netplanet - Adressierung im Internet - IP-<<em>Subnetting</em></a>

Interessant an diesem Anchor-Tag ist der zusätzliche Parameter „onmousedown“, denn dieser Parameter besagt, dass ein Browser, bei dem die JavaScript-Ausführung aktiviert ist, bei einem Klick auf den Link nicht die Zielseite anspringen soll, die im Parameter „href“ angegeben ist, sondern das tun soll, was im Parameter „onmousedown“ angegeben ist. Sprich: Das, was in der Statuszeile des Browsers angegeben ist, nämlich die Adresse der Zielseite, ist in erster Linie Maskerade, denn sie soll zwar vortäuschen, dass ein Klick auf den Link direkt zur Zielseite führt, das tut sie aber nicht.

Denn in Wirklichkeit wird mit dem onmousedown-Parameter die JavaScript-Funktion „clk“ aufgerufen, die im HTML-Head der Suchergebnisseite eingebettet ist und aus den in der Klammer beinhalteten Seiten- und Aufrufparametern einen URL erzeugt und aufruft. Und dieser sieht im Beispiel so aus. Zur besseren Übersichtlichkeit habe ich die einzelnen Parameter, die übergeben werden, untereinander geschrieben, stellt euch das als einzige, lange Zeile vor, die euer Webbrowser da im Hintergrund unbemerkt aufruft:

http://www.google.de/url?
sa=T&
source=web&
ct=res&
cd=6&
url=http%3A%2F%2Fwww.netplanet.org%2Fadressierung%2Fsubnetting.shtml&
ei=i4DrSPTpBJOa7QW98JXCDA

Interessant sind hierbei die Parameter „url“, der die Adresse der eigentlichen Zielseite enthält, der Parameter „cd“, der den Rank des Suchergebnisses enthält, und der Parameter „ei“, der eine google-interne ID darstellt, die auch auf der Suchergebnisseite verwendet wird.

Dieser gesamte URL wird dann per GET-Anfrage vom Browser abgeschickt, enthält jedoch als Ergebnis nicht etwa die Zielseite (die liegt ja logischerweise nicht bei Google), sondern einen Redirect auf die Zielseite, hierzu dient der Inhalt aus dem Parameter „url“. Der Browser schickt also seine Anfrage dann direkt an den Webserver mit der Zielseite und der Nutzer hat die Illusion, dass er mit dem Klick auf das Suchergebnis direkt dorthin gekommen wäre.

Mit diesem Aufruf rundet Google also seinen Suchabfragenablauf ab, der dann wie folgt aussieht:

  1. Nutzer geht auf die Suchmaschine, gibt ein Suchwort ein.
  2. Die Suchmaschine antwortet mit Suchergebnissen.
  3. Nutzer klickt (mit einem javascript-aktivierten) Webbrowser auf einen Link in den Suchergebnissen.
  4. Der Link führt eine JavaScript-Funktion auf, die einen URL generiert.
  5. Der Webbrowser ruft diesen generierten URL, der zum Webserver der Suchmaschine führt, mit einer GET-Anfrage auf.
  6. Der Webserver der Suchmaschine erhält die Anfrage und liefert als Ergebnis einen Redirect auf die eigentliche Zielseite.
  7. Die Suchmaschine wertet die Entscheidung des Nutzers aus.

Ergebnis für Google ist, dass sie aufgrund der google-internen ID die Suchergebnisse direkt mit dem vom Nutzer angeklickten Link verbinden können. Die Jungs wissen also nicht nur, mit welchen Suchbegriffen der Nutzer sucht, sondern auch, auf welches Ergebnis der Nutzer dann in den Suchergebnissen klickt. Und damit ist der wichtigste Teil der Kette gelegt, von der die meisten Nutzer glauben dürften, dass es sie gar nicht gibt.

So, und jetzt denken wir das mal alles gut durch und binden diesen Ansatz im Falle von Google in den gesamten Lebenslauf einer Informationsrecherche ein: Der Nutzer sucht per Google zu einem bestimmten Stichwort eine Ressource und bekommt auf der Suchergebnisseite zehn Vorschläge. Er klickt auf einen Vorschlag, Google bekommt dies mit. Gefällt dem Nutzer dieser Vorschlag, wird er höchstwahrscheinlich keinen weiteren Link mehr anklicken, die letzte Rückmeldung zu einer Anfrage ist also möglicherweise die „gute“ Antwort gewesen. Wenn das ein Nutzer macht, ist das nicht sehr aussagekräftig. Wenn es zehn Leute machen, schon eher. Wenn es Millionen Menschen machen, wird das aufregend gut.

Man kann das aber noch weiterspinnen, denn Google ist ja nicht nur die Suchmaschine, sondern Google ist ja auch Google Analytics oder Google AdSense. Der rote Ariadnefaden zieht sich so also nicht nur im Webbrowser des Nutzers, sondern auch auf den Servern von Google, die so – wenn man jetzt mal davon ausgeht, dass sie Daten miteinander verknüpfen können.

Und nun passt auch alles schlartig zusammen, wie in einem perfekten Puzzle – man muss lediglich ein paar Schritte zurücklaufen und das ganze Bild sehen: Die Inhalte, die Google indexiert, sind ihnen letztendlich schnurz, ihnen kommt es auf das Suchen an. Darum auch ein eigener Browser, der haargenau jeden einzelnen Suchschritt nach Hause sendet und vor allem den schnellsten JavaScript-Renderer weit und breit an Bord hat.

Na, geht es noch? Wir können jetzt nämlich noch ein gehöriges Stück weitergehen und tatsächlich anfangen, Google zu verstehen, warum sie nicht einfach alles nachbauen, was draußen existiert, sondern gern bestehende Erfolgsprojekte wie Blogger.com, YouTube, Keyhole (Google Earth) und wie sie alle heißen, einkaufen: Sie wollen lernen und mitschreiben, wie der Nutzer denkt, sucht und vor allem – findet.

Deshalb meine sicherlich heißen und nicht ohne weiteres fundierbaren Thesen:

  1. Moderne Suchmaschinen sind im Grunde genommen schlicht dumm. Sicherlich können Computer heute nahezu perfekt die menschliche Sprache nachahmen, Handgeschriebenes in Echtzeit fast fehlerfrei auswerten und so tun, als ob sie intelligent auf die Inputs eines Menschen reagieren würden. Sie können aber nach wie vor nur so tun.
  2. Moderne Suchmaschinen sind die eigentlichen Meister des Web 2.0, unter diesen eigentlichen Meistern ist Google der Großmeister. Sie versuchen erst gar nicht, die Inhalte vollständig selbst zu sortieren, sondern lassen das den Nutzer nebenher machen. Nicht finden ist sexy, sondern suchen.
  3. Für eine Suchmaschine ist der suchende Mensch Kunde und Lieferant zugleich. Behandle ihn zuvorkommend und verkaufe ihm das als den Way of Life, denn die Suchmaschine braucht ihn zwingend.
  4. Eine gute Suchmaschine muss Medienbrüche tun, muss tatsächlich auch für Medieninhalte verfügbar sein, für Mails, für Musik, Bilder und Videos auch für gedruckte und umständlich eingescannte Bücher, für abfotografierte Straßen, für wissenschaftliche Arbeiten, für Inhalte jeglicher Art, die Menschen suchen. Denn nur von denen, die suchen, wird gelernt.
  5. Google lässt nahezu stoisch immer verlautbaren, dass sie zwar zwangsläufig Daten sammeln, aber nicht daran interessiert sind, die Privatsphäre des Nutzers zu beeinträchtigen. Möglicherweise kann man ihnen diesen Satz sogar abnehmen, da sie, nach meiner Theorie, tatsächlich gar nicht unbedingt am „Big Picture“ Interesse haben, sondern am eher kurzen Leben einer Informationsrecherche, von Anfang bis Ende.

Und da wir gerade bei den Momenten der ketzerischen Thesen sind, fällt mir zu diesem Thema spontan ein Satz von Morpheus aus dem Film „The Matrix“ ein, für den ich jahrelang eine passende Bedeutung gesucht und nun wohl auch gefunden habe:

„In uns haben die Maschinen eine Energiequelle gefunden, die ihren Bedarf mehr als deckt. Sie haben Felder angelegt, Neo, endlose Felder. Menschen werden nicht länger geboren, wir werden gezüchtet. Ich habe lange Zeit nicht daran geglaubt, bis ich die Felder mit meinen eigenen Augen gesehen habe. [Ich sah, wie sie die Toten in Flüssigkeit auflösen und damit die Lebenden intravenös ernähren.] Und als ich dastand und die erschreckende Präzision sah, wurde mir die Wahrheit schlagartig bewusst: Was ist die Matrix? Kontrolle. Die Matrix ist eine computergenerierte Traumwelt, die geschaffen wurde, um uns unter Kontrolle zu halten. Für sie sind wir nicht viel mehr, als das:


Der Ausgang aus der Matrix ist umfassend, möglicherweise etwas unkomfortabel, aber dafür kinderleicht umzusetzen: JavaScript im Webbrowser deaktivieren.

5 Gedanken zu „Von der so genannten Anonymität von Suchmaschinen.

  1. Ja, dieses Redirect „Geheimnis“ von Google ist mir auch sauer aufgestoßen. Ich habe es durch kopieren von Links aus der Ergebnisliste entdeckt, denn beim einfügen in den Zweitbrowser, oder einen Editor bekommt man das wahre Gesicht der Links zu sehen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *