(Pseudo-)Wissenschaft im Webdesign: Über Sinn und Unsinn von A/B Tests

10. September 2015, 17:27 Uhr Geschrieben von Leave your thoughts

In einem kürzlich erschienenen Artikel kritisiert Autor Benjie Moss die im Webdesign verbreitete statistische Methode des A/B Tests. Bei A/B Tests handelt es sich um ein Verfahren, bei dem bestimmte Elemente einer Website nutzerabhängig variiert werden.

Ein klassisches Beispiel sind Designelemente auf einer Website wie etwa die Farbe oder Größe einer bestimmten Schaltfläche. Im Rahmen der Testung zeigt sich dann, dass etwa die Conversion Rate von Usern, denen die größere Version der Schaltfläche dargestellt wird, höher ist. Infolgedessen liegt die Annahme nahe, diese Variation sei „erfolgreicher“. Logisch soweit einleuchtend und nachvollziehbar.

Um das Ganze zu entkräften führt Moss das Beispiel eines A/A Tests an. Ähnlich der Kontrollgruppe bei experimentellen Studiendesigns soll anhand dieses Tests zweier exakt identischer Websites festgestellt werden, ob die verwendete Methodik funktioniert.

Er vergleicht den A/A Test aufgrund der Gleichheit der Variationen mit einem Münzwurf. Den Gesetzen der Logik folgend sollte die Untersuchung zeigen, dass die Conversion Rate beider Gruppen exakt gleich ist (Das Ergebnis „Kopf“ genauso oft eintritt wie das Ergebnis „Zahl“). Die Realität der Statistik sieht jedoch anders aus. Im Folgenden untersucht er, wie groß die Stichprobe der User sein müsste, um bei einer statistischen Signifikanz von 99% eine Abweichung von weniger als 1% zu ermitteln (im Worst-Case-Szenario). Das statistische Signifikanzniveau gibt an, wie hoch die Wahrscheinlichkeit ist, dass die Ergebnisse einer Testung durch Zufall zustande gekommen sind. Die ermittelte Zahl ist gewaltig: Gemäß seiner Kalkulationen müsste die Stichprobe etwa 98304 User umfassen, um die Abweichung der beiden Variationen unter 1% zu halten.

Der Autor behauptet also, das A/B Testing bei einer Website die innerhalb des Zeitraums der Durchführung des Experiments nicht etwa 100.000 Besucher verzeichnen wird, unsinnig ist.

 

Eine Stichprobe muss nicht annähernd 100.000 Personen umfassen, um A/B Tests aussagekräftig zu machen.

 

Das vom Autor geforderte Signifikanzniveau von 1% ist nicht das, was in der Praxis verwendet wird. Im Normalfall gilt ein Signifikanzniveau von 0.05, also eine statistische Signifikanz von 95% als ausreichend.

Dazu kommt, dass es schlichtweg falsch ist, die Anwendbarkeit einer statistischen Vorgehensweise anhand des Worst-Case-Szenarios abzulehnen. Im Umkehrschluss müsste man einer Lotterie jedes Mal Betrug vorwerfen, wenn jemand den Lotto-Jackpot knackt.

Simuliert man diesen Münzwurf, untersucht aber statt des Worst-Case-Szenarios die durchschnittliche Abweichung der beiden Variationen und setzt ein Signifikanzniveau von 0,05 voraus, schrumpft die von ihm angeführte Zahl drastisch. Schon bei einer Stichprobengröße von nur 768 Nutzern schwankt die durchschnittliche Abweichung bei zehn verschiedenen Durchläufen der Testung zwischen 1.4% und 4.2%.

Abgesehen davon weist der Autor jedoch in einigen Punkten den richtigen Weg. Ein A/B Test mit einer Zielgruppe von 10 Personen durchzuführen ist einfach unsinnig. Niemand würde erwarten, exakt fünfmal Kopf und Zahl zu sehen, wenn er zehnmal eine Münze wirft. Korrekt ist auch, dass A/B Tests in einigen Fällen falsch positive Ergebnisse liefern kann. Daher ist es umso wichtiger, sie innerhalb eines vorher festgelegten Zeitraumes durchzuführen und die Ergebnisse nicht im Laufe der Testung auszuwerten. Ansonsten läuft man in Gefahr, dem sogenannten Peeking-Analyst-Fehler zum Opfer zu fallen. Die Regression zur Mitte (je größer die Stichprobe, desto mehr nähert sich das Ergebnis dem erwarteten Mittelwert an) ist deshalb so tückisch, weil in der Anfangsphase des Tests scheinbar überwältigende Ergebnisse vorliegen können. Nur weil die Conversion Rate der Nutzer der einen Variation der Website nach einer Woche 100% beträgt und die der anderen 0% ist die erste Variation nicht zwangsläufig besser.

Der A/B Test ist sicherlich nicht die eierlegende Wollmilchsau des Webdesigns. Sie aber für Websites mit „wenig“ Traffic kategorisch abzulehnen ist auch nicht korrekt. Wichtig ist jedoch, sich vor der Durchführung des Tests mit seinen Fallstricken vertraut zu machen, um nicht auf falsche Ergebnisse zu schließen- unabhängig davon ob man 100.000 oder 1.000 User zu verzeichnen hat.

Ein Beitrag von Tilman Regelin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.