Controlling 21

Dr. J. Schuhmacher

vg

Logfile-Nutzeranalysen / Nutzeranalysen der Logfiles

Logfile-Nutzeranalysen für Ihren Erfolg im Internet

Nutzeranalysen erhöhen die Transparenz für Sie als Betreiber eines Internet-Auftrittes.

Controllen Sie Ihren Auftritt und führen Sie mit neuartigen Auswertungsmethoden erfolgreich den Markt an !

Tätigkeiten bei der Logfile-Nutzeranalyse

Be- und Auswertung der Logfile-Nutzeranalyse

Sie erfahren, wer Ihre Kunden und Nutzer sind und was sie auf Ihrem Internet-Auftritt suchen.

Was bedeuten die Zahlen und was können Sie damit machen.

Wissens- und Erfahrungsvorsprung

Nutzen Sie Logfile-Nutzeranalyse.

Nur ca. 10% sind relevant

Brutto-Netto-Analyse

Da ca. 90% der Rohdaten die Auswertung stören, muss man für die Analyse die Brutto-Daten zu Netto-Daten filtern.
Nur so lassen sich verlässliche Erkenntnisse gewinnen, auf denen dann Ihre Entscheidungen basieren.

Hintergründe

Nutzerdaten in Logfiles - der ungehobene Informations-Schatz

Jeder Nutzer eines Internet-Auftrittes hinterlässt Spuren. Jeder Mausklick, den er macht, wird akribisch in einer speziellen Datei vermerkt. Diese Datei nennt man Logfile.

Sie besitzen somit einen riesigen Datenbestand über Ihre Nutzer und Kunden im Internet sowie deren Verhalten. Leider wird dieser wertvolle Schatz bisher unzureichend ausgewertet.

Hier erfahren Sie, wie Sie diese wichtigen Informationen für Ihren Erfolg im Internet verwenden können.

Inhalt

Entwicklung der Mess- und Analyseverfahren

Der Weg zum Internet-Controlling

Am Anfang der Entwicklung des WWW fanden sich so genannte Counter auf vielen Seiten, deren Wert eher bescheiden war, da jeder hier die Zahlen einstellen konnte, wie er wollte. Auch die Zählung erfolgte unregelmäßig. Darauf folgten Logfile-Analyse-Programme, die viele Zahlen auswarfen, deren Bedeutung niemand genau erklären konnte, und mit denen viel - vermeintlich wissenschaftlicher - Schindluder getrieben wurde. Nun gelangt die Internet-Branche in die dritte Epoche des qualitativen Internet-Controllings mit aussagekräftigen und leicht verständlichen Bewertungen der Zahlen auf bereinigter Nettobasis.

Counter

Hierbei handelt es sich um auf dem Server installierte Zähler, die meist mittels CGI programmiert sind und vermeintlich jeden Zugriff zählen. I.d.R. registrieren Sie jedoch nur unterschiedliche IPs. Ferner sind sie in jeder Hinsicht manipulierbar und somit völlig wertlos.

Logfile

Hierbei handelt es sich um eine Textdateien, in der jede Aktion eines Nutzers auf dem Internet-Auftritt und jede Reaktion des Servers registriert wird. Der Nachteil sind die oft riesigen Dateien, da wirklich alles aufgezeichnet werden kann.

Hiermit wurden sogenannte Zugriffsmessungen durchgeführt.

Alle Analysen mittels dieser Logfiles beruhen auf Brutto-Daten. Die daraus analysierten Ergebnisse sind unbrauchbar. Z.B. wird die Browser-Verteilung i.d.R. anhand aller Einträge durchgeführt, gleichgültig, was dies auch gewesen sein mag. Aufgrund derart unbereinigter Bruttodaten kann man keine Verteilung z.B. nach Seitenabrufen erstellen. Der uns Menschen klar verständliche Begriff "sichtbare Seite" existiert im Logfile nicht! Dort gibt es nur zahllose Einzelteile, genannt Hits. So kann eine Seite aus ca. 10-50 Hits bestehen, die zu exakt dieser Anzahl an Zeilen / Einträgen im Logfile führt.

Pixel und Logfile

Bei diesem Verfahren wird eine kleine Grafik (i.d.R. ein 1*1 Pixel großes transparentes GIF) in jede HTML-Seite eingebaut. Diese kleine Datei erzeugt auf einem anderen Server einen Abruf, der wiederum in einem Logfile eingetragen wird. Die dadurch erzeugten Logfile-Dateien sind als indirekte bzw. abgeleitete Daten wesentlich kleiner. Aus diesem Grund wird es z.B. vom IVW verwendet, um die Abrufzahlen eines Internet-Auftrittes zu messen.

Allerdings können bei diesem Verfahren auch wichtige Daten fehlen, da das Pixel selbst nicht immer aufgerufen werden muss. Oft wird es am Ende einer Datei eingebunden. Wenn ein Nutzer einer großen Datei bei einem langsamen Internet-Anschluss schnell weiterklickt, kommt es z.B. nicht zum Aufruf der kleinen Grafik. Ferner fehlen z.B. alle Downloads von PDFs und Exe-Dateien.
Bei diesem Verfahren besteht ferner das Problem der Übergabe der Referer. Wer hier nicht sauber programmiert, erhält als Ursprungsadresse immer nur seine eigenen Seiten, und verliert alle Angaben der Suchmaschinen und fremden Seiten, von denen der Nutzer vorher kam.

Bereinigte Nettodaten

Aus den oben geschilderten Nachteilen wurde in den letzten Jahren von mir das Verfahren der bereinigten Nettodaten konzipiert. Hierbei dienen die originalen Logfiles als Grundlage. Da sie jedoch riesige Brutto-Datenmengen enthalten, werden diese je nach Analysezweck sinnvoll auf die jeweils erforderlichen Nettodaten gefiltert. Hierbei bleiben alle wertvollen Daten erhalten und die Datenmenge wird handhabbar. Im Grunde wird erst durch die Bereinigung eine zutreffende Aussage über viele Felder möglich.

Bewertung der Zahlen

Noch wichtiger als die Lieferung solider, verlässlicher Netto-Daten ist die Bewertung derselben.

Erst die professionelle Bewertung einer Zahl ergibt einen Sinn.

Hieraus folgen dann die ausgesprochenen Handlungsempfehlungen, die Ihren Auftritt verbessern, damit

Normen für Logfile-Formate

Standards

Das Hypertext Transfer Protocol (HTTP) ist standardisiert. Die erste Version 1.0 stammt aus dem Jahr 1990, die derzeit aktuelle Version 1.1 ist seit 1999 in Gebrauch.

Jedes Mal, wenn ein Besucher Ihren Internet-Auftritt besucht, hinterlässt er vorher genau festlegbare Spuren, die präzise aufgezeichnet werden.

Weitere Details zum derzeitigen Internet-Standard HTTP/1.1 finden Sie unter: ftp://ftp.isi.edu /in-notes/rfc2616.txt sowie unter: http://www.w3.org /Protocols/

Es gibt zahlreiche Standard-Logfile-Formate, die jedoch im Grunde zusammengefasst sind zum üblicherweise verwendeten Combined oder Extended Logfile.

Agent Logfile

Im Agent Logfile werden nur Informationen über den Client gespeichert. Es finden sich dort Angaben zum Browser und Betriebssystem. Zu den darin befindlichen Detailinformationen siehe den Abschnitt Bestandteile: Browser und Betriebssystem.

Z.B.:

Die darin befindlichen Informationen helfen Ihnen somit, Ihre Seiten auf die von Ihren Nutzern verwendete Software zu optimieren.

Common-Logfile / Access-Logfile

Das Common-Logfile bietet weiter reichende Informationen. Die aufgezeichneten Blöcke umfassen:

Hierbei ist die Reihenfolge wie oben genormt. Z.B.:

Mit diesen Informationen kann man bereits sehr viel auswerten. Weitere Informationen zum Common-Logfile-Format erhalten Sie bei:

http:// www.w3.org/Daemon /User/Config/Logging.html #common-logfile-format

Teilweise wird dieses Common-Logfile auch Access-Logfile genannt. Das ist nach der W3C-Regelung jedoch nicht zutreffend. Weitere Informationen zum Access-Logfile-Format erhalten Sie bei:

http://www.w3.org /Daemon/User/ Config/Logging.html #AccessLog

Referer-Logfile

In diesem Referer-Logfile ist der Name der vorher vom Nutzer besuchten Seite und der nun besuchten angegeben.

Z.B.:

Teilweise befindet sich ein Pfeil (-->) zwischen den zwei Angaben und am Ende der Zeile vereinzelt auch das Datum-/Zeit-Feld.

Combined Logfile

Hierbei handelt es sich ursprünglich um die Zusammenfassung des Common-Logfiles und des Agent Logfiles.

Z.B.:

Error-Logfile

Manche Server erstellen für aufgetretene Fehler ein eigenes Logfile. I.d.R. werden fehlerhafte Einträge jedoch im Common-Logfile mit eingetragen.

Weiter Informationen zum Error-Logfile-Format erhalten Sie bei:

http://www.w3.org /Daemon/User/ Config/Logging.html# ErrorLog

NCSA Common Format

Die Abkürzung NCSA steht für National Center for Supercomputing Applications, eine Einrichtung an der University of Illinois. Dort wurde der erste Browser (Mosaic) entwickelt.

Das NCSA Common Format ist wie folgt aufgebaut:

host rfc931 authuser [DD/Mon/YYYY:hh:mm:ss] "request" ddd bbbb "opt_referer" "opt_agent"

Weitere Informationen zum HTTP request des Clients finden Sie bei: http://www.apropo.de /htm-schulung/secrets.htm sowie bei: http://privacy.net/analyze/. Dort können Sie auch erfahren, welche Informationen Ihr Browser an Server weitersendet.

Microsoft IIS (Internet Information Server)

Microsoft setzt ein proprietäres, d.h. völlig eigenständiges, Logfile-Format ein. Der Hauptunterschied liegt in den Kommata als Trennzeichen. Allerdings liefert es einige zusätzliche Informationen.

Z.B.:

Weiter Informationen zum IIS-Logfile-Format erhalten Sie bei:

http:// www.microsoft.com /windows2000/ en/professional/ iis/default.asp? url=/WINDOWS2000/ en/professional /iis/htm/core/iiabtlg.htm

W3C Extended Format

Die Abkürzung W3C steht für World Wide Web Consortium. Dieses Konsortium entwickelt das Internet weiter.

Das W3C Format scheint eine Mischung zwischen dem NCSA Logfile Format und dem IIS Log File Format zu sein. Hier finden sich mit ca. 20 Feldern die umfassendsten Inhalte, die auf vielen Servern frei auswählbar und einstellbar sind:

Beispiel:

Weiter Informationen zum Extended-Logfile-Format erhalten Sie bei:

http://www.w3.org /TR/WD-logfile.html

Strato

Bei der Firma Strato handelt es sich um einen großen deutschen Account-Provider, der hunderttausende von Internet-Auftritten verwaltet.

Der Hauptunterschied des Strato-Logfile-Formats zum Standard besteht hier in einer teilweisen Übersetzung der IPs in teilweise sprechende Herkunftsadressen (Hostnamen). Das Problem liegt in den Worten teilweise. Weder werden alle IPs übersetzt (meist nur ca. 50%), noch sind alle daraus resultierenden Namen wirklich verständlich.

1 & 1 Internet AG (ehemals Puretec)

Hier sind alle Domains in ein Logfile zusammengeschrieben. Ansonsten entspricht das Logfile-Format von 1 & 1 Internet AG (ehemals Puretec) dem Apache-Format.
Seit einiger Zeit wird es am Ende der Zeile ergänzt um das Feld X-forwarded-for.

Linux / Apache

Die meisten Internet-Auftritte werden über einen Server gesteuert, der auf dem Betriebssystem Linux mit dem Apache-Server läuft. Er kann viele Formate benutzen (NCSA combined/XLF/ELF log format or common/CLF log format). Meist sind die Server-Logfiles im Normalzustand belassen und entsprechen somit dem Standard, der auf dem W3C-Extended-Logfile-Format fußt. Allerdings kann man den Apache Server mit der Datei http.conf beliebig konfigurieren.

Bei dem Apache-Server existiert der Befehl Logformat mit ca. 30 Feldern, die auswählbar und konfigurierbar sind.

I.d.R. sehen moderne Unix-Logfiles so aus:

Das letzte Feld mit der zusätzlichen IP bedeutet X-forwarded-for. Dies liegt teilweise vor, wenn die erste IP ein Proxy darstellt und die letzte IP dann den Endnutzer anzeigt. Oft ist dieses Feld allerdings mit einer Leerstelle gekennzeichnet. Dann ist die erste IP bereits der Endnutzer.

Cache und Proxy - Tests

Fazit

Die immer wieder vorgebrachte Behauptung: Logfiles sind wertlos, da sie kaum etwas aufzeichnen, ist unzutreffend. Alle aktuellen Tests belegen, dass sämtliche relevanten Aufrufe eingetragen werden. Die Wirkung des Browser-Caches ist gering und die der Proxies nicht messbar. Die Server-Logfiles sind somit eine gute Grundlage für ein umfassendes Internet-Controlling.

Hintergrund / Historie

Wilde Behauptungen

Seit vielen Jahren wird immer wieder behauptet, aufgrund der Caches im Browser, der (Hard- und Software-) Proxies im Internet und in Firmen, Institutionen etc. sowie Software-Proxies im oder auf dem Betriebssystem des Nutzers würden kaum Einträge in den Server-Logfiles der Internet-Auftritte eingetragen werden, da sich angeblich die meisten Aufrufe nur auf diese Zwischenspeicher beziehen. Angeblich sollen die meisten Inhalte der Internet-Auftritte somit aus Caches und Proxies bedient werden. Wilde Zahlen kursieren von 30% bis über 70% Abweichung der realen Abrufzahlen von den im Server-Logfile festgehaltenen.

Dünne Fakten

Geht man den Angaben nach, so stößt man auf nur wenige "Belege", deren Überprüfung wiederum erstaunliches zu Tage fördert. Als Quellen werden Carsten Pohle (1999 - http: // cpohle.de // index.php ? option=com_content & task=blogcategory &id=19 &Itemid=50) ) und letztendlich Xavier Drèze, Fred Zufryden (1998 - http: // www.xdreze.org / Publications - zahlreiche Artikel) genannt. Letztere bezogen Ihre Daten wiederum von Paul Grand, Chairman of Netcount, (Vorstandsvorsitzender) einer Firma, die damals teure Dienstleistungen anbot, um die angeblich wertlosen Logfile-Daten durch ihre eigenen angeblich "hochwertigeren" Cookie-Daten zu ersetzen - eindeutig einer Partei im damals heftig ausgefochtenen Kampf um den Wert von Cookies.

Caches und Proxies dienten vor allem in den 90er Jahren, als die Bandbreite noch gering war, dazu, den Datentransfer und damit den Seitenaufbau beim Nutzer zu beschleunigen und das überlastete Internet durch geringeren Netzwerkverkehr zu entlasten.

Theorie statt Praxis

Die Studie von Drèze und Zufryden beschäftigte sich jedoch mit den Fehlern der Marketingwerte Reach, Frequency und Gross Rating Points bei Internet-Werbung.
Ferner befasst sich die Studie eher mit Details wie der damaligen Problematik der eineindeutigen Zuweisung der Benutzer zu einer IP. Dabei wird Caching anhand des Beispiels eines Banners - also eines Bildes - im Zusammenhang mit der Werbewirkung besprochen.
Es ging in der Studie somit nicht primär um Caching von HTML-Inhalten. Dass Bilder zwischengespeichert werden, ist evident und für das Internet-Controlling der meisten Firmen irrelevant! Registriert und gezählt werden für ein Internet-Controlling die Seitenabrufe im Server-Logfile.

Benutzer

Die in der Studie benutzen Zahlen beziehen sich ausschließlich auf die Unterschiede der identifizierten "Benutzer" durch Cookies gegenüber einer einfachen IP-Gleichsetzung mit Benutzern (S.13f.).
Nirgends wird behauptet, dass es sich hierbei um generelle Fehlerraten eines Server-Logfiles handelt!

Behauptungen zum Cache

Beide US-Autoren behaupteten 1998 im Kapitel 3 (S.17) Cache Recovery Algorithms, dass Caching dazu führt, dass jeder Aufruf einer Datei (gleichgültig welcher) nur beim ersten Aufruf eines Besuchers im Logfile geschrieben wird.
Offensichtlich wurde das nie wirklich nachgeprüft. Wie meine Untersuchungen zeigen, ist dies falsch.
Zur Ehrenrettung der beiden Forscher muss jedoch erwähnt werden, dass sie dabei von einem - rein theoretischen - perfekten Cache ausgingen.

Simulation

Drèze und Zufryden simulierten für ihre Theorie deshalb auch einen perfekten Cache und errechneten dann Korrekturwerte für ihre Algorithmen, um den Benutzungspfad eines Nutzers (Tracking/Tracing) besser nachvollziehen zu können. Es handelte sich somit nicht um realistische Praxiswerte.
Die von beiden durchgeführten Versuche fanden anhand einer hochspezifischen Website mit fiktiven Grundannahmen bezüglich Cache und Cookies statt. Zumindest diese Kombination ist heute irrelevant.

USA 1998 = Deutschland 2006 ?

Generell sollte man US-Ergebnisse nicht ungeprüft auf Europa anwenden. Überdies hat sich die Technik im Internet seit 1998 deutlich weiterentwickelt.

Was bedeutet dies nun für uns heute?

Neue Tests

Aufzeichnung jedes Klicks!

Mit dem Eintrag
<meta http-equiv="expires" content="0">
in der HTML-Seite wird in den Browsern Opera, Firefox, Netscape und Internet-Explorer jeder erneute Klick auf einen Link als Aufruf gewertet und in das Server-Logfile geschrieben.
Bei wiederholtem Aufruf eines Links erfolgt dies mit einem Status 304, wobei keine Daten mehr vom Server herunter geladen werden. Alle Bilder und CSS werden aus dem eigenen Browser-Cache entnommen. Der Server wird somit nicht merklich belastet. Der Nutzer verspürt keine bemerkbare Verzögerung.

Sonderfall Internet-Explorer

Beim Internet-Explorer tritt hingegen der Sonderfall ein, dass er innerhalb einer kurzen Zeit keinen erneuten Klick auf einen besuchten Link als 304 meldet. Erst nach ca. 1 Minute wird die Seite als erneut besucht mit 304 im Logfile eingetragen. Vorher scheint der IE sie aus seinem eigenen Cache zu entnehmen.

Zurück-Taste

Beim Rücksprung mit der "Zurück-Taste" wird jedoch kein Eintrag im Logfile erzeugt.
Der Opera lädt allerdings jedes Mal evtl. vorhandene JavaScripts nach.

Beim Netscape 4.78 immer sowie IE 5.5, 5.0, 4.0 nach etwa einer Minute werden sogar die internen Rücksprünge mit der "Zurück-Taste" im Logfile mit dem Status 304 vermerkt. Dies widerlegt auch die Behauptung, dass es an den alten Browsern lag, dass die Logfiles früher angeblich falsch aufzeichneten.

Ein Löschen des Caches im Browser (interner Zwischenspeicher) ist erfolgreich und führte in allen Fällen zum Neuladen der danach aufgerufenen HTML-Seiten mit dem Status 200.

Browser-Spezifika

Besuchte Seiten werden beim Opera auch nach dem Löschen des Caches dennoch optisch als besucht gekennzeichnet. Er scheint auch nicht alle Bilder im Cache zu löschen.
Zumindest werden sie teilweise im Logfile mit Statuscode 304 vermerkt.

Google-Cache

Selbst das Cache von Google speichert bei HTML-Dateien nur die Inhaltsdatei und nicht die Zusätze, sodass man den Zugriff messen kann. Bei falscher Konfiguration des Logfile-Analyse-Programms kann dies allerdings zu einer geringeren Anzeige der Abrufe führen.
Jedoch ist die Anzahl derartiger Abrufe i.d.R. gering. Die meisten Nutzer scheinen bei der Suche in Google den Link zum Internet-Auftritt anzuklicken und nicht den Cache. Dies darf auch kaum verwundern, da dort die meisten Seiten unschön bis falsch dargestellt werden und deren Inhalt meist nicht aktuell ist.

Resümee

Feststellungen

Es ist denkbar, einen Proxy oder Browser-Caches zu bauen, die tatsächlich Zugriffe auf einen Internet-Auftritt verbergen, so dass Einträge in den Logfiles geringere Zugriffe aufweisen. Dies ist jedoch die Theorie, die sich in aktuellen Praxistests nicht belegen ließ!

Gründe

Dass die neuen Praxistests die alte Theorie widerlegen, könnte an folgenden Details liegen:

  1. Der Ausbau des Internets in den letzten 10 Jahren war dramatisch. Die verfügbaren Bandbreiten nahmen derart zu, dass es heute keine Engpässe mehr gibt und Proxies sowie Caches überflüssig wurden.
  2. Zunehmend wurden Angebote im Internet dynamisch und laufend aktualisiert. Auch dies reduziert den Wert des Zwischenspeicherns. Caches und Proxies sind bei laufend aktualisierten Inhalten sogar schädlich.
  3. Angesichts von Flatrates für Endanwender und drastisch gesunken Preisen für Datenvolumina für Anbieter sind auch die Kosten für den Traffic (zumindest im Bereich HTML) heute vernachlässigbar. Sie rechtfertigen offensichtlich für keine Firma, Institution etc. mehr den Einsatz von "eng" konfigurierten Proxies.

Testbedingungen:

Hardware

diverse PCs und Laptops Baujahr 1999-2006, mit diverser Sonderausstattung

Software

Browser: IE 6.0.2900.2180, Firefox 1.5.0.4, Opera 8.54, Netscape 4.7 und 4.78, Netscape 7.1; Internet-Explorer 5.5, 5.0;
bei allen jeweils die deutsche Version.
IE 4.01 englisch

Betriebssystem: Windows XP SP2, Home und Professional, Windows 98

Die Software wurde sowohl in der Standard-Konfiguration als auch mit individuellen Sondereinstellungen getestet.

Zeitraum

Juni 2006

Provider

Diverse Account und Access-Provider

Gegenteilige Ansichten / Hilfe

Diese Untersuchungen sollen eine Diskussion anregen. Sie sind nicht als das "letzte Worte" zum Thema Cache und Proxies gedacht. Deshalb bin ich für jeden Hinweis dankbar.
Wenn Sie auch nur einen Beweis für den negativen Einfluss von Caches oder Proxies auf Server-Logfiles in der heutigen Praxis finden können, bitte ich um eine Mitteilung.

Bestandteile des Logfiles

Im Folgenden soll jeder Block eines Eintrages in einem Standard-Logfile erklärt werden.

Prinzipiell handelt es sich bei einem Logfile um eine reine Textdatei mit Zeilenumbrüchen. Jede Aktion, die ein Nutzer auf dem Internet-Auftritt durchführt, ist i.d.R. im Logfile in einer eigenen Zeile festgehalten. Grundsätzlich sind in einer solchen Zeile alle Großblöcke durch Leerzeichen voneinander getrennt.

IP - Internet Protokoll

Bei der IP - genau genommen der IP-Zahl - (in der derzeit eingesetzten Version 4 des Internet Protokolls) handelt es sich um eine Zahlenkombination. Die Möglichkeiten liegen zwischen 0.0.0.0 und 255.255.255.255. Man unterteilt die Blöcke von links nach rechts in A, B, C, D. In jedem Block existieren 2 hoch 8 Möglichkeiten. D. h. es werden nur die 256 Zahlen 0 bis 255 vergeben. Insgesamt ergeben sich somit 2 hoch 32 denkbare IPs. Allerdings besitzen die amerikanischen Stellen ein derartiges Monopol bei der Vergabe, dass nur ein Bruchteil tatsächlich vergeben ist und davon wieder nur ein Teil eingesetzt wird.

Die IP ist im Prinzip mit der Postleitzahl zu vergleichen. Damit wird ein Anschluss an das Internet gekennzeichnet. Es finden sich i.d.R. keinerlei Benutzernamen im Logfile. Hinter der IP verbirgt sich oft ein großer Provider, eine Universität oder eine Firma. Einzelpersonen besitzen nur äußerst selten eine feste IP. Ihnen werden vom Provider dynamisch, bei Bedarf, eine IP zugewiesen.

Logname / Geschützter Zugang

Handelt es sich bei der abgerufenen Datei um eine geschützte Seite, so findet sich hier der Eintrag des Benutzernamens. Das Feld Logname wird sehr selten benutzt. Entweder handelt es sich um öffentlich zugängliche Seiten, oder der Passwortschutz wird auf anderem Wege erreicht. Bei den meisten Auftritten finden sich deshalb keine Einträge in diesem Feld des Logfiles. Es ist dann mit einem Gedankenstrich gekennzeichnet.

Web-Server-Authentifizierung / Passwort

Handelt es sich bei der abgerufenen Datei um eine geschützte Seite, so findet sich hier der Eintrag des zum Benutzernamen gehörenden Passwortes. Bei den meisten Auftritten finden sich keine Einträge in diesem Feld des Logfiles. Das Feld Web-Server-Authentifizierung wird sehr selten benutzt. Entweder handelt es sich um öffentlich zugängliche Seiten, oder der Passwortschutz wird auf anderem Wege erreicht. Der Eintrag ist dann mit einem Gedankenstrich gekennzeichnet.

Datum, Uhrzeit und Zeitzone

Beim Feld Datum und Zeit des Logfiles handelt es sich um ein in eckigen Klammern stehendes kombiniertes Feld der folgenden Form:

also:

Der zweistelligen Tagesangabe folgen - getrennt durch Schrägstriche - die dreistellige englischsprachige Monatsabkürzung und das vierstellig angegebene Jahr. Daran anschließend - getrennt durch Doppelpunkte - werden jeweils zweistellig Stunden, Minuten und Sekunden angegeben.

Nach einem Leerzeichen folgt die vierstellige Zeitzone in Bezug auf die GMT(Greenwich Mean Time / London). Statt GMT findet sich in der Fachliteratur auch oft UTC - Universal Time Coordinate - Koordinierte Weltzeit.

Zur Umrechnung der Zeitzonen finden Sie Informationen bei: http:// setiathome.berkeley.edu/ utc.php.
Weitere Informationen zur Weltzeit, Sommerzeiten, Zeitzonen, der Uhrzeit aller Länder etc. finden Sie bei: http://www.weltzeituhr.com /start.shtml.

Die immer dreistelligen Monatsabkürzungen lauten Jan, Feb, Mar, Apr, May, Jun, Jul, Aug, Sep, Oct, Nov, Dec.

Bei der Zeitzone wird auch die Sommerzeit mit angegeben. MEZ ist immer Greenwich plus 1 Stunde (+0100), MESZ dementsprechend +0200.

Zugriffsmethode / Aktion, Abgerufene Datei, Verwendetes Protokoll

Das im Logfile auf das Datum folgende Feld Zugriffsmethode bezeichnet die durchgeführte Aktion und steht immer in Hochzeichen.

In diesem ebenfalls kombinierten Feld wird die Aktion, die betroffene Datei und das verwendete HTTP-Protokoll festgehalten.

Überwiegend handelt es sich bei der Aktion um ein GET, seltener ein POST oder ein HEAD. GET bedeutet, dass ein Anfrager etwas abgerufen (geholt) hat. Beim Eintrag POST hat ein Nutzer etwas geschickt oder eine Aktion z.B. in einem Interaktions- oder Transaktionsmodul ausgelöst.

Auf die Aktionsbezeichnung folgt der Name der betroffenen Datei. Dies kann ein sprechender Name oder ein teilweise kombinierter Zahlen- und Buchstabencode sein, der aus einer Datenbank stammt. In wieweit der Domainname und die Verzeichnisstruktur angezeigt werden, hängt von den jeweiligen Server-Einstellungen ab.

Am Ende des Blockes folgt die Bezeichnung des bei der Aktion verwendeten HTTP-Protokolls. Meist steht hier HTTP/1.1, teilweise HTTP/1.0. Je höher die Zahl ist desto besser, da dann z.B. Grafiken schneller abgerufen werden, sich somit für den Nutzer die Ladezeit der Gesamtseite verringert. Ein hoher Anteil an HTTP 1.0 bedeutet, dass Sie viele Nutzer mit alten Browsern als Gäste besitzen, die aufgrund der ständigen Einzelanfragen an den Server für jedes Detail bei Grafiken mit einer langen Ladezeit bestraft werden.

Server-Antwort / HTTP-Statuscodes

Abgetrennt vom Aktionsfeld mit einem Leerzeichen folgt der HTTP-Status-Code - der Antwortcode des Servers. Dieser besteht aus drei Zahlen, die unterschiedliche Zustände charakterisieren. Am wichtigsten - weil häufigsten - sind hierbei: 200, 304 und 404.

Status-Codezugehörige Meldungzugehörige Meldung
100ContinueFortfahren. Wird derzeit noch nicht verwendet.
101Switching ProtocolsProtokoll wechseln. Wird derzeit noch nicht verwendet.
Status-Codezugehörige Meldungzugehörige Meldung
200OKDer Server kann die angeforderten Daten, wie gewünscht, versenden. Dies ist der Normalfall, wenn keine Probleme auftreten. Der größere Anteil aller Anfragen an den Web-Server sollte mit diesem Statuscode enden - ansonsten liegen erhebliche Probleme vor.
201CreatedEin Objekt (z.B. eine Datei oder ein Verzeichnis) wurde auf dem Server erfolgreich angelegt. Das kann vorkommen, wenn die Anfrage des Browsers an den Server mit einer der HTTP-Übertragungsmethoden POST oder PUT erfolgte und eine Anweisung zum Erstellen des entsprechenden Objekts enthielt.
202AcceptedDer Server hat die Anfrage des Browsers akzeptiert, liefert aber keine Daten als Antwort. Der Server schreibt die Daten statt sie zu senden in eine Datei und teilt in der Meldung mit, wo die Daten später zu finden sein werden. Diese Meldung sagt nichts darüber aus, ob der Server die Anfrage erfolgreich behandeln kann. Er hat sie einfach nur akzeptiert und die Abarbeitung auf einen späteren Zeitpunkt verschoben.
203Non-Authoritative InformationDieser Statuscode sollte von einem Server anstelle von 200 zurückgegeben werden, wenn es sich nicht um den Original-Server handelt, sondern beispielsweise um einen Proxy-Server. Der Browser erfährt auf diese Weise, dass die Daten erfolgreich gesendet werden konnten, aber nicht vom Original-Server kommen und daher keine Garantie auf deren Aktualität besteht.
204No ContentDer Server hat die Anfrage erhalten, sendet jedoch keine Daten zurück. Gut einsetzbar ist dieser Statuscode in CGI-Skripten, die zwar etwas auf dem Server erledigen, aber keinen neuen HTML-Code an den aufrufenden Browser senden wollen. Aus Sicht des Nutzers bleibt der alte Bildschirminhalt bestehen.
205Reset ContentDer angegebene Server existiert nicht bzw. der Server, der diese Antwort gibt, ist nicht der angefragte Server und kann den angefragten Server nicht finden. Die angeforderten Daten können deshalb nicht versendet werden.
206Partial ContentDie angeforderten Daten werden in mehreren Portionen versendet (das hat aber nichts mit TCP/IP-Paketen zu tun, sondern geschieht auf HTTP-Protokollebene). Mit Angaben zu content-length (z.B.: 1024) und content-range (z.B.: Bytes 0-1023/1024) wird angegeben, wie viele Bytes von dem angeforderten Inhalt geliefert werden, und welcher Teil der Gesamtdaten. Dieser Antwortcode deutet in vielen Fällen auf eine zu große Datei hin, deren Download abgebrochen wurde.
Status-Codezugehörige Meldungzugehörige Meldung
300Multiple ChoicesDie angeforderten Daten sind unter mehreren verschiedenen URIs vorhanden (Mirror). Anstelle der Daten werden die verfügbaren URIs als Liste übertragen. Der Browser kann den Nutzer anschließend in einem Dialog einen URI auswählen lassen.
301Moved PermanentlyDie angeforderten Daten befinden sich nicht mehr unter dem URI, sie wurden dauerhaft auf eine andere Adresse verschoben. In der Statusmeldung wird angegeben, unter welchem URI sich die Daten jetzt befinden. Ein Browser, der diese Antwort vom Server erhält, kann beispielsweise gleich die neue Adresse anfordern.
302Moved TemporarilyDie angeforderten Daten wurden vorübergehend zu einem anderen URI verschoben. In der Statusmeldung wird angegeben, unter welcher Adresse sich die Daten derzeit befinden. Ein Browser, der diese Antwort erhält, kann beispielsweise gleich die temporär gültige Adresse anfordern.
303See OtherDie angeforderten Daten sind unter einem angegebenen URI verfügbar und sollte von dort mit Hilfe der GET-Methode angefordert werden. Dieser Statuscode ist für CGI-Scripts gedacht, die mit der POST-Methode aufgerufen wurden und den Browser auf eine andere Ressource lenken wollen, die mit der GET-Methode angefordert werden soll.
304Not ModifiedDie angeforderten Daten haben sich seit dem angegebenen Zeitpunkt nicht geändert und werden deshalb nicht gesendet. Dieser Statuscode ist neben dem Code 200 einer der häufigsten in der Praxis. Er wird verursacht durch Browser, die aufgrund ihrer Cache-Einstellungen Daten erst wieder nach einer bestimmten Zeit vom Original-Server laden. Davor fragen sie nur mit dem Zeitpunkt, zu dem die Daten zuletzt geladen wurden, an, ob die Daten auf dem Server seitdem geändert wurden.
305Use ProxyDie angeforderten Daten sollen statt von diesem Server von dem in der Statusmeldung angegebenen Proxy-Server angefordert werden.
306[Unused]Reserviert. Wird derzeit nicht verwendet.
307Temporary RedirectWie Statuscode 302. Gedacht für Fehlreaktionen einiger Browser auf 302.
Status-Codezugehörige Meldungzugehörige Meldung
400Bad RequestDie Anfrage enthält Syntaxfehler. Der Server kann die Anfrage deshalb nicht bearbeiten. Das kann beispielsweise vorkommen, wenn die Anfrage dadurch zustande kam, dass ein Nutzer versuchte, einen URI händisch in die Adresszeile des Browsers einzugeben und dabei ungültige Zeichen verwendete.
401UnauthorizedDie angeforderten Daten sind zugangsgeschützt. Der Server kann die Daten nur senden, wenn eine gültige Zugangskennung, bestehend aus Benutzername und Passwort, bei der Anfrage mit gesendet wird. Das geschieht in der Praxis immer dann, wenn eine Adresse aufgerufen wird, die z.B. durch htaccess zugangsgeschützt ist. Der Browser zeigt dann, nachdem er diesen Statuscode erhalten hat, einen Dialog zum Eingeben von Benutzername und Kennwort an. Mit den eingegebenen Daten startet er danach eine neue Anfrage an den Server.
402Payment RequiredDie angeforderten Daten sind kostenpflichtig. Der Server kann die Daten nur senden, wenn eine Bestätigung der Zahlung für die Daten bei der Anfrage mitgesendet wird. Derzeit wird dies aufgrund fehlender einheitlicher technischer Grundlagen für Micropayment nicht verwendet.
403ForbiddenDie angeforderten Daten sind zugangsgeschützt. Die angegebenen Daten, mit denen der Zugang erlaubt werden soll, sind ungültig. Das kann z.B. vorkommen, wenn zuvor der Statuscode 401 zurückgeliefert worden war und der Browser nun die nächste Anfrage mit den Zugangsdaten gestartet hat, die er vom Nutzer im Dialog abgefragt hat, und diese Daten aber ungültig sind. Manche Browser wiederholen den Dialog zum Eingeben der Zugangsdaten dann noch zweimal, und nach der dritten Falscheingabe wird dem Nutzer die Fehlermeldung " Forbidden" ausgegeben.
404Not FoundDer angeforderte URI existiert nicht. Dies ist neben den Statuscodes 200 und 304 einer der häufigsten Fälle in der Praxis. Er tritt immer dann ein, wenn ein Verweis auf eine nicht oder nicht mehr existierende Adresse auf dem Server führt, oder wenn der Nutzer versucht hat, eine Adresse auf dem Server durch händisches Eintippen in der Adresszeile des Browsers aufzurufen, und diese Adresse aber nicht existiert.
405Method Not AllowedDie angegebene Übertragungsmethode ist auf dem Server nicht erlaubt. Die Daten werden deshalb nicht übertragen. Das kann beispielsweise vorkommen, wenn in der Konfiguration des Web-Servers außer der GET-Methode keine weitere Methode erlaubt ist, ein HTML-Formular aber einen CGI-Aufruf mit der POST-Methode enthält.
406Not AcceptableDie Anfrage ist in dieser Form nicht akzeptabel. Die Daten werden deshalb nicht übertragen.
407Proxy Authentication RequiredDer anfragende Client ist ein Proxy-Server. Die Daten werden an diesen Server nur übertragen, wenn er sich als gültiger Proxy-Server ausweist. Dieser Statuscode findet derzeit noch keine Verwendung. Damit soll auf die Dauer ein ähnliches Handling wie mit dem Statuscode 401 etabliert werden, jedoch nicht für anfragende Browser, sondern für anfragende Proxy-Server. Auf diese Weise könnte es Web-Anbietern möglich werden, in der Serverkonfiguration unerwünschte Proxy-Server vom Zwischenspeichern der eigenen Daten auszusperren.
408Request TimeoutDer Server hat eine erwartete Anfrage nicht innerhalb des dafür festgelegten Maximalzeitraums erhalten. Die Verbindung zum anfragenden Browser wird deshalb abgebaut. Angeforderte Daten werden nicht übertragen.
409ConflictDer Server kann die angeforderten Daten nicht senden, weil ein Konflikt mit einem anderen Prozess aufgetaucht ist. Das kann beispielsweise eintreten, wenn ein anderer Prozess eine angeforderte Datei gerade mit einem exklusiven File-Locking (keinerlei Dateizugriff für andere Prozesse erlaubt) versehen hat.
410GoneDie angeforderten Daten wurden zu einem anderen URI verschoben. Dem Server ist aber nicht bekannt, wohin. Deshalb kann er sie nicht senden - andernfalls würde ein Statuscode 301 oder 302 gesendet worden.
411Length RequiredDie Daten werden nicht gesendet. Sie können nur gesendet werden, wenn die Anfrage eine Angabe zu content-length enthält. Der Browser kann versuchen, die Anfrage neu zu formulieren und dabei die Länge der an den Server gesendeten Anfragedaten mit zu übermitteln.
412Precondition FailedEine oder mehrere Bedingungen, die bei der Anfrage gestellt wurden, treffen nicht zu. Die angeforderten Daten werden deshalb nicht übertragen.
413Request Entity Too LargeDer Server kann die Anfrage nicht bearbeiten, weil diese zu viele Zeichen enthält. Die angeforderten Daten werden deshalb nicht übertragen.
414Request-URL Too LongDer Server kann die Anfrage nicht bearbeiten, weil die angeforderte Adresse zu viele Zeichen enthält. Die angeforderten Daten werden deshalb nicht übertragen.
415Unsupported Media TypeDer Server kann die Anfrage nicht bearbeiten, weil er keinen Mime-Type für den angeforderten Datentyp kennt. Die angeforderten Daten werden deshalb nicht übertragen.
416Requested Range Not SatisfiableDie Anfrage enthält Angaben, welcher Byte-Bereich von dem angeforderten URI übertragen werden soll. Sowohl der Anfangswert als auch der Endwert des angegebenen Bereichs liegen außerhalb des verfügbaren Bytebereichs, z.B. wenn ein Bytebereich von 1000 bis 2000 angegeben wird, die Ressource aber nur 500 Byte hat. Die angeforderten Daten werden deshalb nicht übertragen.
417Expectation FailedDie Anfrage enthält im expect-Feld bestimmte Wünsche, die der Server nicht erfüllen kann. Die angeforderten Daten werden deshalb nicht übertragen.
Status-Codezugehörige Meldungzugehörige Meldung
500Internal Server ErrorDer Server kann die angeforderten Daten nicht senden, weil auf dem Server ein Fehler aufgetreten ist. Beispielsweise konnte das aufgerufene CGI-Script nicht gestartet werden.
501Not ImplementedDie Anfrage enthält Anforderungen, die der Server nicht bearbeiten kann, weil die Voraussetzungen dazu nicht implementiert sind. Die angeforderten Daten können deshalb nicht gesendet werden.
502Bad GatewayZum Bearbeiten der Anfrage musste der Server einen anderen Server aufrufen, erhielt dabei jedoch eine Fehlermeldung. Die angeforderten Daten können deshalb nicht gesendet werden.
503Service UnavailableDer Server kann die Anfrage aufgrund einer Überlastung nicht bearbeiten. Die angeforderten Daten können deshalb nicht gesendet werden. In der Statusmeldung kann stehen, wann die Anfrage frühestens wieder bearbeitet werden kann. Im Gegensatz zum Statuscode 202 verarbeitet der Server die Daten nicht, sobald er wieder Kapazitäten hat.
504Gateway TimeoutZum Bearbeiten der Anfrage musste der Server einen anderen Server aufrufen, erhielt dabei jedoch nach einem festgelegten Maximalzeitraum keine Antwort. Die angeforderten Daten können deshalb nicht gesendet werden.
505HTTP Version Not SupportedDer Server unterstützt die im HTTP-Header der Anfrage angegebene HTTP-Version nicht. Die angeforderten Daten werden deshalb nicht gesendet.
Status- codezugehörige MeldungBedeutung

Hinweis

Es handelt sich hier nicht um einen Druckfehler. Im Zusammenhang mit Fehlermeldungen spricht man i.d.R. von URI (Universal Resource Identifier / seltener: Information) statt von URL (Universal Resource Locator).

Weitere Informationen zu den Status-Codes finden Sie bei: http://www.w3.org /Protocols/

Dateigröße

Dieses durch Leerstellen abgetrennte Feld des Logfile-Eintrages besteht aus einer beliebig langen Zahl. Sie gibt die Größe der bewegten Daten an. Bei abgerufenen Dateien handelt es sich um die Dateigröße.

Bei einem Eintrag 304 im davor liegenden Feld Server-Antwort / HTTP-Statuscodes steht hier oft ein Gedankenstrich. Hierbei handelt es sich um einen Aufruf aus dem Cache des Browsers, so dass keine Daten mehr vom Server an den Nutzer versandt werden mussten.

Zieldomain

Bei einigen Auftritten finden sich keine Einträge in diesem Feld des Logfiles. Es ist dann mit einem Gedankenstrich gekennzeichnet.

Falls dort etwas eingetragen ist, findet sich überwiegend die Domain der eigenen Firma: www.firma.de. In den Fällen, in denen mehrere Domains auf einem eigenen Server betrieben werden, können hier auch unterschiedliche Zieladressen eingetragen sein. Teilweise kann das www. davor entfallen.

Dieses Feld hat nur bei Multi-Domain-Auftritten einen Sinn und entfällt deshalb teilweise auch. Bei solchen Auftritten, die viele Internet-Adressen auf dieselben Dateien verweisen lassen, kann man die einzelnen Unter-Domainen (z.B. www.firma.de und www.firma.com) im Logfile separieren.

Referer

Dieses Feld des Logfile-Eintrages ist ebenfalls von seiner Umgebung durch Leerstellen abgetrennt. Der Inhalt besteht aus dem im Internet für die Namensvergabe zulässigen Alphabet. Der Inhalt zeigt die direkt vorher vom Nutzer besuchte Seite bzw. getätigte Aktion an. I.d.R. findet sich hier nur ein Gedankenstrich. Er steht für keine Angaben.

Falls sich ein Eintrag findet, so besitzt er oft die Form http://...... Die Herkunftsadresse kann mit einem www. oder ohne oder mit der reinen IP eingeleitet werden. In anderen Fällen finden sich bis hin zur Dateibezeichnung detaillierte Angaben der Form:

Dynamisch aus Datenbanken erzeugte Herkunftsseiten zeigen sich auch so:

Bei Suchmaschinen finden sich mit zahlreichen Trennern versehene Suchworte:

Wobei Umlaute und Sonderzeichen codiert werden: %E4 steht z.B. für ä.

Diese im Referer mit übertragenen Suchworte der Suchmaschinen geben Ihnen wichtige Hinweise, unter welchen Stichworten Nutzer zu Ihnen finden!

Die meisten Einträge im Referer werden allerdings von ihrer eigenen Domain stammen, da sich der Nutzer in Ihrem Auftritt von einer Seite zur nächsten weitergeklickt hat.

Browser und Betriebssystem

Dieses in Anführungszeichen stehende Kombinationsfeld bei Logfile-Einträgen kann mit einem Gedankenstrich für keine Angaben gekennzeichnet sein. I.d.R. finden sich dort die Angaben zum Browser und dem Betriebssystem. Allerdings sind viele diese Angaben teilweise codiert in dem Sinne, dass sie unterschiedlich benannt sind und im folgenden Text erst weiter sich ergeben. So findet sich am Anfang der meisten Einträge Mozilla. Dies heißt jedoch keineswegs, dass es sich hierbei um den Browser Mozilla oder auch nur Netscape handelt. Oft steht dahinter in Klammern dann noch der kleine Zusatz MSIE 5.01, der dann erst den tatsächlichen Browser angibt. Teilweise finden sich direkt hinter dem Browser, abgetrennt durch ein Semikolon, Sonderbezeichnungen wie AOL 7.0. Dies gibt die Sonderversion des Browsers bzw. der Zugangssoftware zum Internet an.

Ähnlich verhält es sich mit dem dahinter eingetragenen Betriebssystem, das in derart vielen redundanten Abkürzungen und Codes eingetragen werden kann, dass man leicht die Übersicht verliert. Der Eintrag Windows 98 ist noch leicht zu erkennen. Schwieriger wird es bereits bei Windows NT 5.0, das für Windows 2000 steht.

Dahinter folgen, durch ein Semikolon abgetrennt, teilweise weitere codierte Bezeichnungen. Bei Großfirmen bezeichnen diese Einträge oft die Firmenversion des Betriebssystems. Daneben findet man dort auch die Provider eingetragen: DT für Deutsche Telekom, Arcor, Freenet etc.

Allerdings stehen dort manchmal auch erst die richtigen Browser-Bezeichnungen! Das betrifft vor allem die neueren kleineren Browser. Dies gilt u.a. für Opera, z.B.:

oder auch für den Avant-Browser, z.B.:

oder den Crazy, z.B.:

oder den Firebird, z.B.:

oder den Safari, z.B.:

Überdies finden sich teilweise noch Plugins für einen Browser angezeigt. So z.B. Hotbar:

Schließlich finden sich in diesem Block auch die gesamten Spider, Crawler, Robots etc. der Suchmaschinen. Ich selbst habe bisher eine Sammlung von mehreren hundert unterschiedlichen derartigen Einträgen erstellt.

Letztendlich wird diese Feld von einigen Spaßvögeln - vor allem aus dem Linux-Bereich - auch vorsätzlich missbraucht: Einträge wie Unbekannt ha! ha! gehören noch zu den höflichen. Hier wird deutlich, wo die Grenzen liegen. Im Prinzip kann man sowohl das eigene Betriebssystem als auch den eigenen Browser entweder unsichtbar machen oder sogar als eine ganz andere Software ausgeben!

Auswertung­sprogramme - Software

Inzwischen sind zahlreiche Programme zur - meist oberflächlichen - Analyse der Logfiles vorhanden. Wichtig ist, dass alle Programme nur unbereinigte Brutto-Daten auswerten und keine verbalen Bewertungen der Zahlen ausgeben!

WebSuxess

Derzeit ist diese professionelle Software WebSuxess in der Version 4 zu erhalten, die ständig in Details wie den Datenbanken verbessert wird.

http://www.websuccess.de

WebSuxess und Webtrends sind beides sehr mächtige Programme, mit denen man sehr viele Details aus den Logfiles herausfinden kann. Allerdings sind dazu erhebliche Kenntnisse der jeweiligen Software erforderlich. Bei beiden handelt es sich um umständlich zu konfigurierende und relativ unergonomisch zu bedienende Programme.

WebSuxess bietet in den folgenden Unterkategorien viele Detailinformationen:

Das Programm arbeitet relativ schnell. Alles kann in den jeweiligen Rubriken ausgeblendet und jede Spalte sortiert werden. Sehr interessant ist die Sortiermöglichkeit und somit Gruppierung der Seiten nach Rubriken und selbst vergebenen Kommentaren.

Allerdings sind einige Bezeichnungen unzutreffend: Z.B. können Besucher nicht gemessen werden. Seiten umfasst alle Inhalte, nicht nur HTML-Seiten. Ferner sind die dreidimensionalen Schaubilder unübersichtlich und nicht auf zweidimensional feststellbar. Jede Änderung lässt sie wieder auf 3D zurückspringen.

Vor allem die Auflösung der Browser und Betriebssysteme lässt zu wünschen übrig, da viele nicht (richtig) erkannt werden. Dies hat der Hersteller erkannt und liefert folglich laufend Updates nach. Auch manche anderen Funktionen scheinen nicht immer korrekt zu funktionieren. So werden Suchmaschinenweiterleitungen als Ad Clicks gezählt.

Webtrends

Derzeit ist diese professionelle Software in der Version 7 zu erhalten. Der Funktionsumfang ist beeindruckend, jedoch die englische Sprache bei der Bedienung für Laien nicht hilfreich. Ferner ist die Ergonomie gering und die Filterprogrammierung schwierig.

Vorteilhaft ist im Vergleich zu WebSuxess die Auflistung der Fehler, damit man die betroffenen Seiten und Links etc. genauer untersuchen kann. Interessant ist ferner die Möglichkeit, sich die benutzten Fachtermini jeweils am Ende der Ergebnisseite erklären zu lassen. Allerdings geschieht dies auf Englisch. Überdies kann man die Top-Anzeigen in ihrem Umfang konfigurieren, sodass man z.B. die Top 10, 20, 30 einer bestimmten Kategorie präsentiert bekommt. Jedoch ist der Aufwand hierfür hoch.

Auch hier wird eine Anzahl der Unique Visitors ausgezeichnet, die eine reine Summe unterschiedlicher IPs ist, was keinesfalls einmaligen Besuchern entspricht. Dass das Programm mit Umlauten nicht klar kommt (z.B. bei den Suchwörtern), ist heutzutage nicht mehr zu entschuldigen. Auch der Anteil der nicht erkannten Browser und Betriebssysteme liegt sehr hoch.

WebTrends bietet in den folgenden Unterkategorien viele Detailinformationen:

Weitere Informationen zu diesem Programm erhalten Sie bei:

http://www.netiq.com /webtrends/default.asp

Weitere Logfile-Analyse-Programme

Ferne gibt es zahlreiche kleinere Tools, die für den Einstieg durchaus vieles bieten.

Analog

Analog ist ein kostenloses, auch auf Deutsch erhältliches Programm, das einen sehr umfangreichen Funktionsumfang bietet.

Weitere Informationen zu diesem Programm erhalten Sie bei:

http://www.analog.cx/

AWStats

AWStats ist ein kostenloses englisches Programm, das einen geradezu riesigen Funktionsumfang bietet.

Weitere Informationen zu diesem Programm erhalten Sie bei: http://awstats. sourceforge.net/

Hitbox

Hitbox HBX ist ein kostenloses, aber dafür mit Werbung versehenes englisches Programm, das einen großen Funktionsumfang bietet.

Weitere Informationen zu diesem Programm erhalten Sie bei:

http: // www.websidestory.com - derzeit defekt

Logmeister

Logmeister ist ein kostenpflichtiges englisches Programm für Windows-Systeme.

Weitere Informationen zu diesem Programm erhalten Sie bei:

http: //www.tlhouse.co.uk /LogMeister/ logmeister.shtml

Mach5

Mach5 FastStats Analyzer ist ein kommerzielles Produkt, das in der grafischen Aufbereitung etwas an Mind Mapping erinnert und für manche Zielgruppen leichter zu verstehen ist als die Konkurrenzprodukte.

Weitere Informationen zu diesem Programm erhalten Sie bei:

http://www.mach5.com

Webalizer

Webalizer ist ein kostenloses englisches Programm mit guten Funktionen, das allerdings in seiner Version aus dem Jahr 2002 nicht mehr ganz modern ist.

Weitere Informationen zu diesem Programm erhalten Sie bei:

http://www. mrunix.net/ webalizer/

WWWstats

Einfache Perl-Skripte liefern bei wwwStats eine ausgefeilte Statistik.

Weitere Informationen zu diesem Programm erhalten Sie bei:

http:// linux.maruhn.com /sec/wwwstats.html

Liste und Vergleich freier Tools

Unter den folgenden Adressen finden Sie Listen und Vergleiche kostenloser Analysetools:

Vergleiche der Ergebnisse

Es verwundert kaum, dass alle meine Tests mit exakt demselben Logfile unterschiedliche Ergebnisse in allen getesteten Programmen ergaben. Abweichungen bei Hits und Page-Views von 5-10 % dürfen einen nicht verwundern. Bei Visits können über 100% zwischen dem geringsten und dem größten Wert liegen. Jede Software zählt anders.

Hinweis

Beachten Sie, dass es nicht auf die Software ankommt, sondern dass Sie wissen, was diese Tools auswerten und wie sie es tun. Keines ist perfekt!

etracker Testbericht

Fazit

Erst die wesentlich teurere Variante liefert einen halbwegs akzeptablen Umfang an auswertbaren Daten. Der freundliche Service steht im Widerspruch zur relativ komplizierten Einrichtung, welche diese Dienstleistung eher für Fachleute denn für das Management anwendbar macht. Messungenauigkeiten bei der Datenerhebung und teilweise nicht individuell einstellbare - und somit zu grobe - Auswertungsklassen reduzieren den Wert der gelieferten Zahlen. Die Auswertung der Ergebnisse wird durch nicht immer ergonomische Bedienung, insbesondere lange Wartezeiten und mangelnde Erklärungen zu den Zahlen erschwert.

Letztendlich bleibt ohne qualitative Bewertung der Zahlen jede Zahlenreihe wenig aussagekräftig. Erst eine qualitative Bewertung mit konkreten Handlungs­empfehlungen ergibt ein effizientes Internet-Controlling.

Vorteile der Nutzeranalysen mit Bewertung

Hintergrund: Externe Dienstleister für das Internet-Controlling mit Online-Analysen

Seit einiger Zeit wird viel über externe Dienstleister gesprochen, die angeblich extrem preiswert das Internet-Controlling für Sie und Ihre Firma übernehmen. Sie bieten dies auf dem eigenen Server online und ständig aktuell an. Bei genauerer Betrachtung stellt sich das jedoch als zu euphorische Behauptung heraus.
etracker ist vermutlich der bekannteste Anbieter in Deutschland. Deshalb soll er hier untersucht werden.

Lobenswerter Service

Der Service des Dienstleisters ist besonders lobenswert. Alle Anfragen wurden freundlich, hilfsbereit, schnell und kompetent beantwortet.

Schwierige Installation

Bereits bei der Installation der notwendigen Details dürften Laien an die Grenzen stoßen.

Technik

Auswertung

Mehrwert für Manager ?

Letztendlich stellt sich die Frage, was ein Manager mit den gelieferten Zahlen anfangen soll?

Ohne eine qualitative Bewertung der Zahlen muss jede Zahlenreihe wenig aussagekräftig bleiben. Erst eine qualitative Bewertung durch einen Fachmann mit daraus folgender konkreter Handlungsempfehlung ergibt ein effizientes Internet-Controlling.

Vorteile der Nutzeranalysen mit Bewertung

Service-Pakete

Dafür erhalten Sie jedoch auch bereits bewertete, schriftliche Gutachten mit Verbesserungsvorschlägen und konkreten Handlungsanweisungen zur Umsetzung.

Beschränkungen

AGB

Wichtig ist auch der Hinweis in den AGB, dass diese Auswertungsfirmen Ihre Firmen-Daten weiterverwenden!
Nur Sie selbst können entscheiden, ob dies wirklich sinnvoll ist. Es handelt sich schließlich um sehr wertvolle Daten.

Unterstützte Techniken

Netto-Werte

Zur Rechtfertigung des eigenen komplexen Mess-Systems wird von derartigen Dienstleistern gern die pauschale und veraltete Behauptung ins Feld geführt: Server-Logfiles der Firmen seien weitgehend wertlos, da dort u.a. aufgrund von Proxies und Caches die Daten zu gering seien. Dies wird derzeit in von mir durchgeführten Studien widerlegt.

Abweichungen zum Testsystem von Controlling 21

Resümee

Letztendlich bleibt festzuhalten, dass dieser Service sicherlich einiges für Personen bietet, die bisher überhaupt nichts auf dem Gebiet des Internet-Controllings getan haben - solange Sie mit den Einschränkungen leben wollen.

Spezialisten werden jedoch mit optimierter Software nicht nur genauere Zahlen liefern, sondern mit verständlichen Bewertungen samt Handlungsempfehlungen erst ein effizientes Internet-Controlling für Sie aufbauen.

Im Internet-Controlling gilt:

Auswertungs­möglichkeiten, Probleme und Grenzen

Zwar existieren zahlreiche (bisher oft ungenutzte) Auswertungsmöglichkeiten der Logfile-Daten. Allerdings sollten bei aller Euphorie auch die Probleme und Grenzen nicht übersehen werden.

Nur Wissen über die Fakten schützt Sie vor Fehlinterpretationen und Betrügereien unseriöser Analytiker.

Brutto- versus Netto-Daten

Alle herkömmliche Logfile-Analyse-Software wertet nur Brutto-Daten aus.

Selbst wenn die besseren Tools eine Programmierung von Filtern erlauben, so ist dies sehr aufwändig und kann keineswegs alle Probleme lösen, da mehrere der obigen Fehler nicht auf diese Weise korrigiert werden können.

Wer verlässliche Fakten als Grundlage für Investitionen sucht, benötigt die Netto-Daten-Analyse.

Hits

Für mich steht der Fachbegriff Hits als Akronym für Hoffnungslos irrelevante Treffer-Summe.

Alle Analysen mittels Logfiles beruhen auf Brutto-Daten. Der uns Menschen klar verständliche Begriff "sichtbare Seite" existiert im Logfile nicht! Dort gibt es nur zahllose Einzelteile, genannt Hits. So kann eine Seite aus ca. 10-50 Hits bestehen, die zu exakt dieser Anzahl an Zeilen / Einträgen im Logfile führt.

Die daraus analysierten Ergebnisse sind unbrauchbar. Z.B. wird die Browser-Verteilung i.d.R. anhand aller Einträge durchgeführt, gleichgültig, was dies auch gewesen sein mag. Aufgrund derart unbereinigter Bruttodaten kann man keine Verteilung z.B. nach Seitenabrufen erstellen.

Wer verlässliche Fakten als Grundlage für Investitionen sucht, benötigt die Netto-Daten-Analyse.

Hits wurden vor allem früher aufgrund ihrer gigantischen Größen gern für Werbezwecke missbraucht. Heute benutzen unseriöse Betreiber exakt die gleichen Zahlen (Hits), nennen sie aber Page-Impressions.

Allerdings ist der Wert für die IT / Ihren Provider wichtig. Man kann aus der Zahl der Hits die Belastung des Servers je Zeiteinheit errechnen. Dies ist für hoch belastete Auftritte durchaus relevant. Für über 95% aller Internet-Auftritte gilt jedoch, dass jeder gängige PC die im Internet auftretende Last mit Leichtigkeit erfüllen kann.

Datentransfer

Auch der Datentransfer ist eine eher für die Technik relevante Größe. Der Dateitransfer (auch Datenmenge, Datenvolumen genannt) ist i.d.R. bis zu einer gewissen Menge in Ihrem Grundtarif mit enthalten.
Hierbei gilt jedoch immer häufiger der Tageswert statt des Monatswertes. Angenommen Sie erhalten ein Freivolumen von 30 GB, so sind dies nur 1 GB je Tag. Haben Sie an einem einzigen Tag einen Spitzenwert von über einem GB Datenvolumen, so müssen Sie Strafgebühren entrichten. Diese sind je nach Provider unterschiedlich hoch. Ein fairer Provider wird allerdings nicht mehr als einen einstelligen Eurobetrag je zusätzliches GB verlangen.

Aus der Datenmenge kann man keineswegs auf die Anzahl der abgerufenen Seiten schließen. Dies wäre nur möglich, wenn alle Seiten exakt den gleichen Datenbedarf aufwiesen. Da jedoch i.d.R. viele Details im Browser des Nutzers gecached werden, so können höhere Seitenabrufe in einem Zeitraum durchaus mit einem niedrigeren Datenvolumen einhergehen, als geringere Seitenabrufe in einem anderen Vergleichszeitraum. Somit sind diese Datentransferwerte für das Management und das Marketing irrelevant und verwirren nur.

Page-Views, Page-Impressions, PI

Der Name Page-View oder Page-Impression ist verführerisch, suggeriert die Übersetzung doch, dass es sich um Seiten handelt. Dem ist nicht so. Eine Seite kann aus zahlreichen PI bestehen. Einfachstes Beispiel ist eine mit Frames aufgebaute Seite. Der Nutzer sieht nur eine Seite. In Wirklichkeit wird das Frameset geladen und dann je nach der Konstruktion des Frames mindestens zwei weitere Seitenteile! Dies ergibt mindestens 3 PI für eine sichtbare Seite.

Um auch nur halbwegs verlässliche Zahlen zu erhalten muss man komplexe Filter programmieren, um alle irrelevanten Seitenteile aus der Zählung der Page-Impressions herauszuhalten. Standard-Programme tun dies jedoch nicht! Dies muss Ihr Fachpersonal durchführen.

Wer verlässliche Fakten als Grundlage für Investitionen sucht, benötigt die Netto-Daten-Analyse.

Teilweise zählen Standard-Analyse-Programme nur die HTML-Seiten als PI. So fallen z.B. PDFs weg. Andere Software zählen hingegen alle Downloads (auch Exe-Dateien etc.) hinzu.

Visits

Visit bedeutet Besuch, nicht Besucher! Allerdings ist auch ersteres nicht zutreffend, da nur die IPs gezählt werden: Eine IP wird als ein Besuch gezählt. Dies wird oft noch mit einem willkürlichen Zeitfenster von 15 Minuten versehen. Tritt dieselbe IP nach einer Pause von 15 Minuten neu auf, so handelt es sich um einen neuen Besuch.

Auch mit dieser Einheit wird viel Schindluder getrieben. Nur allzu leicht spukt beim Wort Besuch die Gleichsetzung mit Mensch im Bewusstsein herum. Da jede IP gezählt wird, kann es sich auch um einen maschinellen Zugriff der Suchmaschinen, der Roboter, der Monitoring-Systeme etc. gehandelt haben.

Wer verlässliche Fakten als Grundlage für Investitionen sucht, benötigt die Netto-Daten-Analyse.

Die IP darf nicht mit einer Person gleichgesetzt werden. Proxies, Firewall und Router lassen viele Nutzer, die dahinter liegen, wie einen aussehen, da sie nach außen nur eine IP zeigen. Umgekehrt verändert sich die dynamische IP eines Benutzers, teilweise sogar während einer Sitzung! So existieren Provider, die eine unterschiedliche IP für GET- und für POST-Befehle vergeben. Im durchaus realistischen Fall, dass jemand mit Zeittarif automatisch vom Internet getrennt wird, wenn er zwei Minuten nichts macht, kann der identische Nutzer alle 10 Minuten sich unter einer neuen IP ins Internet einwählen, Ihre Seiten aufrufen und so Dutzende von Visits am Tag produzieren. Falls Sie diesen Fall für unrealistisch halten, so betrachten Sie einmal die Standard-Zeiteinstellungen der meisten gängigen Firewalls für Privatkunden und kleine Firmen.

Ein näherungsweiser Versuch der Ermittlung der Anzahl der Besucher kann m.E. bei einem relativ kurzen Zeitraum (z.B. bis zu einer Woche) mittels der heruntergeladenen CSS-Dateien durchgeführt werden. Falls der Nutzer seinen Browser-Cache in der Zwischenzeit nicht löscht oder zu gering eingestellt hat, so wird diese Datei nur einmal angefordert.

Die Zahl der wirklich an dem Auftritt interessierten neuen Besucher lässt sich annähernd über die Zahl der abgerufenen favico(n).ico ermitteln. Diese Datei wird angefordert, wenn sich ein Nutzer die Adresse bookmarked.

Browser

Inzwischen ist die Anzahl der unterschiedlichen Browser und vor allem deren Versionen im vierstelligen Bereich angekommen.

Manche Browser, wie Opera, können sich als andere ausgeben.

Die Suchwerkzeuge der Suchmaschinen (Crawler, Spider, Robots etc.) können zwar als solche gekennzeichnet sein, besitzen teilweise jedoch auch einen fiktiv angegebenen Browser-Namen. Insbesondere trifft dies auf Hackertools etc. zu. Diese verwässern die Statistik über Browser.

Ferner analysieren einige Werkzeuge die Browser falsch und ordnen sie anderen zu oder können sie nicht auflösen.

Betriebssysteme

Im Prinzip kann man in manchen Betriebssystemen, wie z.B. Linux, das eigene Betriebssystem und den Browser entweder unsichtbar machen oder sogar als eine ganz andere Software ausgeben!

Ferner analysieren einige Werkzeuge die Betriebssysteme falsch und ordnen sie anderen zu oder können sie nicht auflösen.

Die Suchwerkzeuge der Suchmaschinen (Crawler, Spider, Robots etc.) können zwar als solche gekennzeichnet sein, besitzen teilweise jedoch auch ein Betriebssystem. Insbesondere trifft dies auf Hackertools etc. zu. Diese verwässern die Statistik über Betriebssysteme.

Vorgegebene Größenklassen

Normalerweise erlauben herkömmliche Analyse-Programme sowohl bei den Browsern als auch den Betriebssystemen nur die Grobauswertung oder eine Feinauswertung.

Die Grobauswertung ist mit ihren großen Klassen oft zu ungenau, da wichtige Details verloren gehen. Es besteht die Gefahr, dass Sie Wichtiges übersehen und so die falschen Entscheidungen treffen.

Die Feinauswertung ist hingegen oft zu aufwändig. Sie erschlägt den Betrachter mit zu vielen unüberschaubaren Details. Es besteht hierbei die Gefahr, dass die Analyse zu viel Zeit erfordert und Entscheidungen zu spät oder nicht getroffen werden.

Zur frei wählbaren Granularität (Detailanzeige) in der Auflösung siehe dort.

Verweildauer

Die Verweildauer wird seit einiger Zeit als eine der angeblich aussagekräftigsten Kenngröße im Internet gehandelt. Mit derart pauschalen Aussagen sollte man jedoch vorsichtig sein!

Zwar existieren kompliziertere technische Lösungen, die Verweildauer zu messen. Dennoch unterliegen auch diese (vor allem JavaScript-Lösungen) technischen Grenzen (siehe unten). Für herkömmliche Aufzeichnungsmethoden in Logfiles gelten jedoch erhebliche Einschränkungen.

Zu einem soliden Internet-Controlling gehört auch, auf die Grenzen des Messbaren hinzuweisen. Eine solche liegt bei der herkömmlich gemessenen Verweildauer vor:

JavaScript

Zwar kann man mit JavaScript in einer HTML-Datei die Verweildauer - auch einer einzelnen Seite - messen (Beispiel siehe unten). Im Prinzip lädt man eine weitere Datei (meist ein unsichtbares kleines Bild) am Ende des Betrachtungszeitraumes.

Aber auch hier existieren Einschränkungen:

Letztendlich stellt sich jedoch auch bei dieser technisch durchführbaren Messung von Einzelseiten die Frage nach dem Wert der Ergebnisse:
Ist eine Seite a mit durchschnittlich 20 Sekunden Verweildauer "besser" als eine Seite b mit 15 Sekunden?

Beispielcode

Da immer wieder die Frage gestellt wird, wie man die Verweilzeit bei Einzelabrufen messen kann, sei im Folgenden ein Beispiel mit JavaScript angegeben, das auch bei einfachen / statischen HTML-Seiten auf den meisten technisch einfach ausgestatteten Servern funktioniert.

Mit dem folgenden Beispielcode (test1.htm) wurden diverse Tests durchgeführt.

<html><head>

<title>Testseite</title>

<script type="text/javascript">

var Start = new Date();

var Startzeit = Start.getTime();

function Aufenthalt() {

var Ende = new Date();

var Endezeit = Ende.getTime();

var Aufenthalt = Math.floor((Endezeit - Startzeit) / 1000);

document.img1.src = "1.gif?Sek="+Aufenthalt;

}

</script>

</head>

<body onUnload="Aufenthalt()">

Testseite 1

<br><a href="test2.htm">zur Seite 2</a>

<br><img src="1.gif" alt="" width="1" height="1" name="img1">

</body>

</html>

Damit man zum Testen schnell hin- und herspringen kann, existierte eine ähnlich aussehende Datei test2.htm

Das Ergebnis sieht als Eintrag im Logfile folgendermaßen aus:

217.83.170.156 - - [06/Mar/2004:13:49:21 +0100] "GET 1.gif?Sek=14 HTTP/1.1" 200 42 www.testdomain.de "http://www. testdomain.de/ test1.htm" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)" "-"

Die Zahl hinter Sek= gibt die gemessene Verweildauer in Sekunden an.

Datum und Uhrzeit

Das Datum stimmt heute fast immer in Logfiles. Stichprobenartig nachprüfen sollte man es jedoch trotzdem. Es wurden in manchen Marketingabteilungen schon die seltsamsten Interpretationen ausgedacht, nur um zu erklären, dass an einem Feiertag die Zugriffe besonders hoch/tief waren. Der wahre Grund lag darin, dass ein Systemadministrator sich beim Einrichten des Servers um einen Tag im Datum geirrt hatte.

Noch größer ist die Gefahr der Fehlinterpretation bei den Uhrzeiten. Dass Server in Deutschland nach GMT statt nach MEZ oder sogar MESZ eingestellt sind, führt zu einer bzw. zwei Stunden Zeitverschiebung.
Noch gravierender wird das Problem falls Ihr Server in einer anderen Zeitzone steht. Diese Zeitverschiebungen müssen im Analyseprogramm korrigiert werden. Leider ist dies nur extrem selten möglich. Es reicht nicht aus, unter die falsche Zeitkurve zu schreiben, der Leser möge bitte geistig selbst die Zeit um x Stunden in eine Richtung korrigieren. Das kann kaum jemand, wenn er den erklärenden Text überhaupt liest.

Noch schwieriger wird es bei internationalen Auftritten. Hier treten im Idealfall Zugriffe aus verschiedenen bis allen Zeitzonen auf. Es mag auf den ersten Blick logisch erscheinen, dass ein Kunde sich um 20 Uhr für viele Seiten ernsthaft interessierte. Falls diese Zugriffe jedoch aus Japan stammten, so liegt der Zugriff tief in der Nacht, so dass Sie sich das einmal genauer ansehen sollten. Um hierbei die Zeitkurven noch auswerten zu können, muss man sie nach Herkunft des Zugriffes separieren. Dies wird in herkömmlicher Analyse-Software kaum durchgeführt.

Wochentagauswertung

Diese von allen Programmen angebotene Analyse ist nur bei Siebenergruppen an Tagen durchführbar. Da die meisten Logfiles jedoch im Monatsrhythmus ausgewertet werden, funktioniert dies nur mit dem Monat Februar mit 28 Tagen zuverlässig. Bei allen anderen Monaten weisen mehrere Tage zu viele bzw. zu wenige Abrufe auf! Noch gravierender wird dieses Problem, falls man versuchen sollte, die Monate miteinander zu vergleichen. In jedem Monat sind i.d.R. andere Tage bevorzugt oder benachteiligt. Gleiches gilt bei Quartals-, Halbjahres oder Jahresauswertungen.

Vor allem bei größeren Perioden werden jahreszeitliche Schwankungen nivelliert und sind dann nicht mehr erkennbar. Ideal ist ein Wochenzyklus. Meist wird jedoch aus üblichen Reporting-Gründen ein Monatszeitraum gewählt.

Abgerufene Datei / Seiteninhalt

Bei sprechenden Dateinamen fällt die Zuordnung relativ einfach. Hier treten oft nur Schwierigkeiten bei Namensgleichheit auf. Insbesondere findet sich dieses Phänomen bei den verschiedenen index.html, die sich in unterschiedlichen Verzeichnissen befinden können, da nicht immer der gesamte Pfad angezeigt wird. Dies tritt insbesondere auf, wenn Domains auf Unterrubriken umgeleitet werden.

Problematischer wird die Angelegenheit der Namenszuweisung bei aus Datenbanken dynamisch generierten Seiten. Sie tragen oft nur noch Buchstaben und oder Zahlenschlüssel: z.B.:

Hier ist eine Mapping-Liste oder Matching-Liste erforderlich. Sie sollten sich die Lösung nicht allzu einfach vorstellen. Oft existieren hochkomplexe mehrdimensionale Zuordnungen. Ideal ist es, wenn einer sichtbaren Seite nur ein Zahlencode zugeordnet werden kann. Diese eineindeutige Zuordnung existiert jedoch oft nicht. Häufig existieren sowohl internal als auch external IDs für dieselbe Seite. D.h. zwei Codes verweisen auf einen Inhalt. Diese müssen zusammengefasst werden. Ferner existieren oft Codekombinationen, aus denen sich erst ein Inhalt ergibt. Mir selbst lagen bereits bis zu sechsdimensionale Verknüpfungen vor. Hierbei ergibt sich aus ID_1=A, ID_2=B, ID_3=C, ID_4=D, ID_5=E, ID_6=F erst der (kombinierte) Inhalt der angezeigten Seite.

Schwierig wird die Angelegenheit bei dynamischen Datenbanken, weil spätestens nach einem Jahr kein Techniker mehr weiß, was wie zusammenhängt. Noch schwieriger wird die Erstellung der Matching-Liste, falls externe Firmen die Datenbank und Seitenkombination für Sie konzipiert und programmiert haben. Hier reicht oft bereits der Weggang eines zentralen Ansprechpartners und Sie besitzen keine Matching-Tabelle mehr.
Selbst wenn die Zuordnung der Code zu den Inhalten - meist in der Konzeptionsphase des Projektes - einmal schriftlich festgehalten wurde, so existieren über die während der Entwicklung und vor allem der weiteren Wartung erstellten bzw. veränderten Seiten meist keine sauberen Aufzeichnungen.
Eine Matching-Liste aller Seiten eines Portals mit mehreren Tausend Inhalten zu erstellen, erfordert nicht nur geistigen Aufwand, sondern auch Zeit.

Post-Befehle (Interaktionen mit dem Server, z.B. Absenden eines Kontaktformulars) werden von vielen gängigen Analyseprogrammen oft nicht oder nicht richtig gezählt.

Seitenauflistung

Schwierig wird eine Analyse der Inhalte in fast allen Logfile-Analyse-Programmen, da sie nur aufgerufene Dateien anzeigen. Man spricht hier von der Positivauflistung. Nicht aufgerufene Inhalte Ihres Auftrittes werden nicht aufgezeigt. Es fehlt die Negativauflistung: die Anzeige der Seiten, die nicht aufgerufen wurden!
Weitere Informationen zur Negativauflistung.

Als Folge wird in herkömmlichen Analysetools jedes Mal eine andere Reihenfolge aller Dateien entstehen (gleichgültig wie Sie sortieren). So kann man nicht oder nur schwer Details aus Periode eins mit Periode zwei vergleichen. Hier helfen nur Panel-Studien mit konstanten Grundmengen.
Weitere Informationen zu Panels.

Insbesondere lassen die herkömmlichen Analysetools keine feststehende individuelle Seitenauflistung zu. Dies funktioniert nur mit einem Spezialprogramm.
Weitere Informationen zur individuellen Auflistung.

Herkömmliche Analysen bieten nur wenige Auflistungsmöglichkeiten. Überwiegend werden die gefundenen Dateien nach Größenklassen oder alphabetisch sortiert. Sie müssen selbst mühsam suchen, wo sich diese Datei in Ihrem Internet-Auftritt befindet. So wird Ihnen jeglicher Überblick über die Realität unmöglich gemacht. Individuelle und stabile Sortierreihenfolgen erhalten Sie nur mit Spezialprogrammen.
Weitere Informationen zur individuellen Auflistung.

Session-Tracking / Tracing

Im Prinzip bedeutet Session-Tracking / Tracing die Verfolgung einer Sitzung eines Nutzers. Technisch kann jedoch auch hier nur der PC verfolgt werden und nicht eine Person. Gelöst wird dies entweder mit einem Cookie oder einer Session-ID. Bei beiden Verfahren handelt es sich um eine lange Textcodierung. Bei Cookies wird die Signatur auf dem PC des Nutzers abgelegt, sofern er dies erlaubt! Bei den Session-IDs erhält der Browser des Nutzers auf der ersten Seite eines Auftrittes diesen Code an den Seitennamen angehängt, und er schleppt diesen sichtbaren, sehr langen Schlüssel dann auch auf jede weitere Seite mit, die der Nutzer aufruft.

Cookies sind vor allem in Deutschland aus Datenschutzgründen heftig umstritten. Bei Session-ID tritt oft das Problem mit dem Bookmarken der Seite auf. Oft lässt sich der Seitenname nicht mehr verwenden, da der Server eine Fehlermeldung zurückliefert, weil der Schlüssel zeitlich abgelaufen ist!

Erstaunlich viele Analyse-Programme können die Session-IDs jedoch nicht auswerten bzw. werden durch sie sogar in der Gesamtanalyse gestört.

IP-Auflösung

Viele Analyse-Programme versuchen heute, die IP in sprechende Namen umzuwandeln. I.d.R. gelingt dies nur zu einem gewissen Prozentsatz und erbringt i.d.R. nur für den Spezialisten verständliche Inhalte. Meist liefern diese Automatismen weder den genauen Firmennamen noch das Land oder den Ort. Details kann man z.B. manuell nachschlagen unter:

Für die geografische Lokalisierung einer IP eignet sich besonders die Software NeoTrace.
http://www.neotrace.com

Für die Auflösung der Ländercodes eignet sich besonders:
http://www.cia.gov / cia / publications / factbook / appendix / appendix-d.html

Externe Marktvergleiche, Benchmarks

Standard-Analysen können nur Ihren Internet-Auftritt untersuchen.
Da Daten von anderen Internet-Auftritten fehlen, ist ein Vergleich mit der Branche oder dem gesamten Markt unmöglich. Man sollte sich deshalb von steigenden Zahlen nicht in Sicherheit wiegen, und fallende Werte bedeuten keineswegs immer eine Katastrophe

Sie benötigen für eine aussagekräftige Bewertung den Marktvergleich.
Weitere Informationen zu Marktvergleichen.

Bewertung, Handlungs­empfehlungen

Herkömmliche Analyse-Programme sind i.d.R. einstufige Software. Es findet nur eine Ausgabe aller Daten statt. Eine Bewertung - die Interpretation dieser Daten - erhalten Sie nicht. Das müssen Sie selbst leisten.

Letzteres verwundert auch nicht, da keine Maschine und keine noch so intelligente Software die hochkomplexen Datenmengen Ihres Internet-Auftrittes selbst logisch interpretieren kann.

"Die Zahlen nützen meist wenig - auf die richtige Interpretation kommt es an!"

Auch Handlungsempfehlungen kann eine Software nicht aussprechen.

Weitere Informationen zu Bewertungen.

Zum Seitenanfang

Controlling21.de - Dr. J. Schuhmacher
Internet und Multimedia in Perfektion