Cache und Proxy - Tests

Fazit

Die immer wieder vorgebrachte Behauptung: Logfiles sind wertlos, da sie kaum etwas aufzeichnen, ist unzutreffend. Alle aktuellen Tests belegen, dass sämtliche relevanten Aufrufe eingetragen werden. Die Wirkung des Browser-Caches ist gering und die der Proxies nicht messbar. Die Server-Logfiles sind somit eine gute Grundlage für ein umfassendes Internet-Controlling.

Hintergrund / Historie

Wilde Behauptungen

Seit vielen Jahren wird immer wieder behauptet, aufgrund der Caches im Browser, der (Hard- und Software-) Proxies im Internet und in Firmen, Institutionen etc. sowie Software-Proxies im oder auf dem Betriebssystem des Nutzers würden kaum Einträge in den Server-Logfiles der Internet-Auftritte eingetragen werden, da sich angeblich die meisten Aufrufe nur auf diese Zwischenspeicher beziehen. Angeblich sollen die meisten Inhalte der Internet-Auftritte somit aus Caches und Proxies bedient werden. Wilde Zahlen kursieren von 30% bis über 70% Abweichung der realen Abrufzahlen von den im Server-Logfile festgehaltenen.

Dünne Fakten

Geht man den Angaben nach, so stößt man auf nur wenige "Belege", deren Überprüfung wiederum erstaunliches zu Tage fördert. Als Quellen werden Carsten Pohle (1999) und letztendlich Xavier Drèze, Fred Zufryden (1998) genannt. Letztere bezogen Ihre Daten wiederum von Paul Grand, Chairman of Netcount, (Vorstandsvorsitzender) einer Firma, die damals teure Dienstleistungen anbot, um die angeblich wertlosen Logfile-Daten durch ihre eigenen angeblich "hochwertigeren" Cookie-Daten zu ersetzen - eindeutig einer Partei im damals heftig ausgefochtenen Kampf um den Wert von Cookies.

Caches und Proxies dienten vor allem in den 90er Jahren, als die Bandbreite noch gering war, dazu, den Datentransfer und damit den Seitenaufbau beim Nutzer zu beschleunigen und das überlastete Internet durch geringeren Netzwerkverkehr zu entlasten.

Theorie statt Praxis

Die Studie von Drèze und Zufryden beschäftigte sich jedoch mit den Fehlern der Marketingwerte Reach, Frequency und Gross Rating Points bei Internet-Werbung.
Ferner befasst sich die Studie eher mit Details wie der damaligen Problematik der eineindeutigen Zuweisung der Benutzer zu einer IP. Dabei wird Caching anhand des Beispieles eines Banners - also eines Bildes - im Zusammenhang mit der Werbewirkung besprochen.
Es ging in der Studie somit nicht primär um Caching von HTML-Inhalten. Dass Bilder zwischengespeichert werden, ist evident und für das Internet-Controlling der meisten Firmen irrelevant! Registriert und gezählt werden für ein Internet-Controlling die Seitenabrufe im Server-Logfile.

Benutzer

Die in der Studie benutzen Zahlen beziehen sich ausschließlich auf die Unterschiede der identifizierten "Benutzer" durch Cookies gegenüber einer einfachen IP-Gleichsetzung mit Benutzern (Seite 13f.).
Nirgends wird behauptet, dass es sich hierbei um generelle Fehlerraten eines Server-Logfiles handelt!

Behauptungen zum Cache

Beide US-Autoren behaupteten 1998 im Kapitel 3 (Seite 17) Cache Recovery Algorithms, dass Caching dazu führt, dass jeder Aufruf einer Datei (gleichgültig welcher) nur beim ersten Aufruf eines Besuchers im Logfile geschrieben wird. Offensichtlich wurde das nie wirklich nachgeprüft. Wie meine Untersuchungen zeigen, ist dies falsch. Zur Ehrenrettung der beiden Forscher muss jedoch erwähnt werden, dass sie dabei von einem - rein theoretischen - perfekten Cache ausgingen.

Simulation

Drèze und Zufryden simulierten für ihre Theorie deshalb auch einen perfekten Cache und errechneten dann Korrekturwerte für ihre Algorithmen, um den Benutzungspfad eines Nutzers (Tracking/Tracing) besser nachvollziehen zu können. Es handelte sich somit nicht um realistische Praxiswerte.
Die von beiden durchgeführten Versuche fanden anhand einer hochspezifischen Website mit fiktiven Grundannahmen bezüglich Cache und Cookies statt. Zumindest diese Kombination ist heute irrelevant.

USA 1998 = Deutschland 2006 ?

Generell sollte man US-Ergebnisse nicht ungeprüft auf Europa anwenden. Überdies hat sich die Technik im Internet seit 1998 deutlich weiterentwickelt.

Was bedeutet dies nun für uns heute?

Neue Tests

Aufzeichnung jedes Klicks!

Mit dem Eintrag
<meta http-equiv="expires" content="0">
in der HTML-Seite wird in den Browsern Opera, Firefox, Netscape und Internet-Explorer jeder erneute Klick auf einen Link als Aufruf gewertet und in das Server-Logfile geschrieben.
Bei wiederholtem Aufruf eines Links erfolgt dies mit einem Status 304, wobei keine Daten mehr vom Server herunter geladen werden. Alle Bilder und CSS werden aus dem eigenen Browser-Cache entnommen. Der Server wird somit nicht merklich belastet. Der Nutzer verspürt keine bemerkbare Verzögerung.

Sonderfall Internet-Explorer

Beim Internet-Explorer tritt hingegen der Sonderfall ein, dass er innerhalb einer kurzen Zeit keinen erneuten Klick auf einen besuchten Link als 304 meldet. Erst nach ca. 1 Minute wird die Seite als erneut besucht mit 304 im Logfile eingetragen. Vorher scheint der IE sie aus seinem eigenen Cache zu entnehmen.

Zurück-Taste

Beim Rücksprung mit der "Zurück-Taste" wird jedoch kein Eintrag im Logfile erzeugt.
Der Opera lädt allerdings jedes Mal evtl. vorhandene JavaScripts nach.

Beim Netscape 4.78 immer sowie IE 5.5, 5.0, 4.0 nach etwa einer Minute werden sogar die internen Rücksprünge mit der "Zurück-Taste" im Logfile mit dem Status 304 vermerkt. Dies widerlegt auch die Behauptung, dass es an den alten Browsern lag, dass die Logfiles früher angeblich falsch aufzeichneten.

Ein Löschen des Caches im Browser (interner Zwischenspeicher) ist erfolgreich und führte in allen Fällen zum Neuladen der danach aufgerufenen HTML-Seiten mit dem Status 200.

Browser-Spezifika

Besuchte Seiten werden beim Opera auch nach dem Löschen des Caches dennoch optisch als besucht gekennzeichnet. Er scheint auch nicht alle Bilder im Cache zu löschen.
Zumindest werden sie teilweise im Logfile mit Statuscode 304 vermerkt.

Google-Cache

Selbst das Cache von Google speichert bei HTML-Dateien nur die Inhaltsdatei und nicht die Zusätze, sodass man den Zugriff messen kann. Bei falscher Konfiguration des Logfile-Analyse-Programms kann dies allerdings zu einer geringeren Anzeige der Abrufe führen.
Jedoch ist die Anzahl derartiger Abrufe in der Regel gering. Die meisten Nutzer scheinen bei der Suche in Google den Link zum Internet-Auftritt anzuklicken und nicht den Cache. Dies darf auch kaum verwundern, da dort die meisten Seiten unschön bis falsch dargestellt werden und deren Inhalt meist nicht aktuell ist.

Resümee

Logfiles enthalten wertvolle Daten.
Browser cachen heute nur relativ wenig HTML-Inhalte
Die Wirkung von Proxies lässt sich derzeit nicht mehr messen.
Aufgrund der Möglichkeit des Einsatzes der "Zurück-Taste" im Browser können korrekte Pfade (Tracking/Tracing) eines Nutzers nicht durch einfache Analyse einfacher Server-Logfiles durchgeführt werden.
Hierbei handelt es sich jedoch um eine logische Systembedingung, die alle Analysemethoden betrifft. Selbstverständlich sind davon auch die auf der Zählung von eingebetteten Grafiken beruhenden Messverfahren bettoffen, da insbesondere Grafiken im Browser-Cache zwischengespeichert werden. Dies betrifft außer beim Opera auch die durch JavaScript nachgeladenen Grafiken.

Feststellungen

Es ist denkbar, einen Proxy oder Browser-Caches zu bauen, die tatsächlich Zugriffe auf einen Internet-Auftritt verbergen, so dass Einträge in den Logfiles geringere Zugriffe aufweisen. Dies ist jedoch die Theorie, die sich in aktuellen Praxistests nicht belegen ließ!

Gründe

Dass die neuen Praxistests die alte Theorie widerlegen, könnte an folgenden Details liegen:

Der Ausbau des Internets in den letzten 10 Jahren war dramatisch. Die verfügbaren Bandbreiten nahmen derart zu, dass es heute keine Engpässe mehr gibt und Proxies sowie Caches überflüssig wurden.
Zunehmend wurden Angebote im Internet dynamisch und laufend aktualisiert. Auch dies reduziert den Wert des Zwischenspeicherns. Caches und Proxies sind bei laufend aktualisierten Inhalten sogar schädlich.
Angesichts von Flatrates für Endanwender und drastisch gesunken Preisen für Datenvolumina für Anbieter sind auch die Kosten für den Traffic (zumindest im Bereich HTML) heute vernachlässigbar. Sie rechtfertigen offensichtlich für keine Firma, Institution etc. mehr den Einsatz von "eng" konfigurierten Proxies.

Testbedingungen:

Hardware

diverse PCs und Laptops Baujahr 1999-2006, mit diverser Sonderausstattung

Software

Browser: IE 6.0.2900.2180, Firefox 1.5.0.4, Opera 8.54, Netscape 4.7 und 4.78, Netscape 7.1; Internet-Explorer 5.5, 5.0;
bei allen jeweils die deutsche Version.
IE 4.01 englisch

Betriebssystem: Windows XP SP2, Home und Professional, Windows 98

Die Software wurde sowohl in der Standard-Konfiguration als auch mit individuellen Sondereinstellungen gestestet.

Zeitraum

Juni 2006

Provider

Diverse Account und Access-Provider

Gegenteilige Ansichten / Hilfe

Diese Untersuchungen sollen eine Diskussion anregen. Sie sind nicht als das "letzte Worte" zum Thema Cache und Proxies gedacht. Deshalb bin ich für jeden Hinweis dankbar.
Wenn Sie auch nur einen Beweis für den negativen Einfluss von Caches oder Proxies auf Server-Logfiles in der heutigen Praxis finden können, bitte ich um eine Mitteilung.

Kontaktformular

Hilfe

Ich helfe Ihnen bei der

Analyse Ihres Internet-Auftrittes

Controlling - Messen Sie Ihren Erfolg im Internet

Tanzen lernen im Internet
Online Tanzen lernen

Zum Seitenanfang