Controlling 21
Dr. J. Schuhmacher
Die immer wieder vorgebrachte Behauptung: Logfiles sind wertlos, da sie kaum etwas aufzeichnen
, ist unzutreffend. Alle aktuellen Tests belegen, dass sämtliche relevanten Aufrufe eingetragen werden. Die Wirkung des Browser-Caches ist gering und die der Proxies nicht messbar. Die Server-Logfiles sind somit eine gute Grundlage für ein umfassendes Internet-Controlling.
Seit vielen Jahren wird immer wieder behauptet, aufgrund der Caches im Browser, der (Hard- und Software-) Proxies im Internet und in Firmen, Institutionen etc. sowie Software-Proxies im oder auf dem Betriebssystem des Nutzers würden kaum Einträge in den Server-Logfiles der Internet-Auftritte eingetragen werden, da sich angeblich die meisten Aufrufe nur auf diese Zwischenspeicher beziehen. Angeblich sollen die meisten Inhalte der Internet-Auftritte somit aus Caches und Proxies bedient werden. Wilde Zahlen kursieren von 30% bis über 70% Abweichung der realen Abrufzahlen von den im Server-Logfile festgehaltenen.
Geht man den Angaben nach, so stößt man auf nur wenige "Belege", deren Überprüfung wiederum erstaunliches zu Tage fördert. Als Quellen werden Carsten Pohle (1999) und letztendlich Xavier Drèze, Fred Zufryden (1998) genannt. Letztere bezogen Ihre Daten wiederum von Paul Grand, Chairman of Netcount, (Vorstandsvorsitzender) einer Firma, die damals teure Dienstleistungen anbot, um die angeblich wertlosen Logfile-Daten durch ihre eigenen angeblich "hochwertigeren" Cookie-Daten zu ersetzen - eindeutig einer Partei im damals heftig ausgefochtenen Kampf um den Wert von Cookies.
Caches und Proxies dienten vor allem in den 90er Jahren, als die Bandbreite noch gering war, dazu, den Datentransfer und damit den Seitenaufbau beim Nutzer zu beschleunigen und das überlastete Internet durch geringeren Netzwerkverkehr zu entlasten.
Die Studie von Drèze und Zufryden beschäftigte sich jedoch mit den Fehlern der Marketingwerte Reach, Frequency und Gross Rating Points bei Internet-Werbung.
Ferner befasst sich die Studie eher mit Details wie der damaligen Problematik der eineindeutigen Zuweisung der Benutzer zu einer IP. Dabei wird Caching anhand des Beispieles eines Banners - also eines Bildes - im Zusammenhang mit der Werbewirkung besprochen.
Es ging in der Studie somit nicht primär um Caching von HTML-Inhalten. Dass Bilder zwischengespeichert werden, ist evident und für das Internet-Controlling der meisten Firmen irrelevant! Registriert und gezählt werden für ein Internet-Controlling die Seitenabrufe im Server-Logfile.
Die in der Studie benutzen Zahlen beziehen sich ausschließlich auf die Unterschiede der identifizierten "Benutzer" durch Cookies gegenüber einer einfachen IP-Gleichsetzung mit Benutzern (Seite 13f.).
Nirgends wird behauptet, dass es sich hierbei um generelle Fehlerraten eines Server-Logfiles handelt!
Beide US-Autoren behaupteten 1998 im Kapitel 3 (Seite 17) Cache Recovery Algorithms, dass Caching dazu führt, dass jeder Aufruf einer Datei (gleichgültig welcher) nur beim ersten Aufruf eines Besuchers im Logfile geschrieben wird. Offensichtlich wurde das nie wirklich nachgeprüft. Wie meine Untersuchungen zeigen, ist dies falsch. Zur Ehrenrettung der beiden Forscher muss jedoch erwähnt werden, dass sie dabei von einem - rein theoretischen - perfekten Cache ausgingen.
Drèze und Zufryden simulierten für ihre Theorie deshalb auch einen perfekten Cache und errechneten dann Korrekturwerte für ihre Algorithmen, um den Benutzungspfad eines Nutzers (Tracking/Tracing) besser nachvollziehen zu können. Es handelte sich somit nicht um realistische Praxiswerte.
Die von beiden durchgeführten Versuche fanden anhand einer hochspezifischen Website mit fiktiven Grundannahmen bezüglich Cache und Cookies statt. Zumindest diese Kombination ist heute irrelevant.
Generell sollte man US-Ergebnisse nicht ungeprüft auf Europa anwenden. Überdies hat sich die Technik im Internet seit 1998 deutlich weiterentwickelt.
Was bedeutet dies nun für uns heute?
Mit dem Eintrag
<meta http-equiv="expires" content="0">
in der HTML-Seite wird in den Browsern Opera, Firefox, Netscape und Internet-Explorer jeder erneute Klick auf einen Link als Aufruf gewertet und in das Server-Logfile geschrieben.
Bei wiederholtem Aufruf eines Links erfolgt dies mit einem Status 304, wobei keine Daten mehr vom Server herunter geladen werden. Alle Bilder und CSS werden aus dem eigenen Browser-Cache entnommen. Der Server wird somit nicht merklich belastet. Der Nutzer verspürt keine bemerkbare Verzögerung.
Beim Internet-Explorer tritt hingegen der Sonderfall ein, dass er innerhalb einer kurzen Zeit keinen erneuten Klick auf einen besuchten Link als 304 meldet. Erst nach ca. 1 Minute wird die Seite als erneut besucht mit 304 im Logfile eingetragen. Vorher scheint der IE sie aus seinem eigenen Cache zu entnehmen.
Beim Rücksprung mit der "Zurück-Taste" wird jedoch kein Eintrag im Logfile erzeugt.
Der Opera lädt allerdings jedes Mal evtl. vorhandene JavaScripts nach.
Beim Netscape 4.78 immer sowie IE 5.5, 5.0, 4.0 nach etwa einer Minute werden sogar die internen Rücksprünge mit der "Zurück-Taste" im Logfile mit dem Status 304 vermerkt. Dies widerlegt auch die Behauptung, dass es an den alten Browsern lag, dass die Logfiles früher angeblich falsch aufzeichneten.
Ein Löschen des Caches im Browser (interner Zwischenspeicher) ist erfolgreich und führte in allen Fällen zum Neuladen der danach aufgerufenen HTML-Seiten mit dem Status 200.
Besuchte Seiten werden beim Opera auch nach dem Löschen des Caches dennoch optisch als besucht gekennzeichnet. Er scheint auch nicht alle Bilder im Cache zu löschen.
Zumindest werden sie teilweise im Logfile mit Statuscode 304 vermerkt.
Selbst das Cache von Google speichert bei HTML-Dateien nur die Inhaltsdatei und nicht die Zusätze, sodass man den Zugriff messen kann. Bei falscher Konfiguration des Logfile-Analyse-Programms kann dies allerdings zu einer geringeren Anzeige der Abrufe führen.
Jedoch ist die Anzahl derartiger Abrufe in der Regel gering. Die meisten Nutzer scheinen bei der Suche in Google den Link zum Internet-Auftritt anzuklicken und nicht den Cache. Dies darf auch kaum verwundern, da dort die meisten Seiten unschön bis falsch dargestellt werden und deren Inhalt meist nicht aktuell ist.
Es ist denkbar, einen Proxy oder Browser-Caches zu bauen, die tatsächlich Zugriffe auf einen Internet-Auftritt verbergen, so dass Einträge in den Logfiles geringere Zugriffe aufweisen. Dies ist jedoch die Theorie, die sich in aktuellen Praxistests nicht belegen ließ!
Dass die neuen Praxistests die alte Theorie widerlegen, könnte an folgenden Details liegen:
diverse PCs und Laptops Baujahr 1999-2006, mit diverser Sonderausstattung
Browser: IE 6.0.2900.2180, Firefox 1.5.0.4, Opera 8.54, Netscape 4.7 und 4.78, Netscape 7.1; Internet-Explorer 5.5, 5.0;
bei allen jeweils die deutsche Version.
IE 4.01 englisch
Betriebssystem: Windows XP SP2, Home und Professional, Windows 98
Die Software wurde sowohl in der Standard-Konfiguration als auch mit individuellen Sondereinstellungen gestestet.
Juni 2006
Diverse Account und Access-Provider
Diese Untersuchungen sollen eine Diskussion anregen. Sie sind nicht als das "letzte Worte" zum Thema Cache und Proxies gedacht. Deshalb bin ich für jeden Hinweis dankbar.
Wenn Sie auch nur einen Beweis für den negativen Einfluss von Caches oder Proxies auf Server-Logfiles in der heutigen Praxis finden können, bitte ich um eine Mitteilung.
Ich helfe Ihnen bei der
Controlling21.de - Dr. J. Schuhmacher
Internet und Multimedia in Perfektion