Die statistische Methodik hinter Experimenten
Welche Methode verwendet das Experimentierteam zur Berechnung von Konfidenzintervallen und statistischer Signifikanz?
Jackknife-Resampling wird auf Bucket-Daten angewendet, um die Stichprobenvarianz der prozentualen Änderung einer Metrik zu berechnen. Anschließend wird ein zweiseitiger Signifikanztest mit dem 95 %-Konfidenzintervall durchgeführt.
Warum die Daten in einem Bucket aufbewahren?
Durch die Bündelung der Daten werden die Auswirkungen kleinerer Beobachtungsfehler reduziert. Wenn Sie mehr darüber erfahren möchten, warum Daten-Bucketing nützlich ist, finden Sie hier einen guten Ausgangspunkt .
Auch wenn die Daten nicht normalverteilt sind, sind die in den Buckets unterteilten Daten auf der Grundlage des Zentralen Grenzwertsatzes ungefähr normalverteilt, vorausgesetzt, es gibt genügend Beobachtungen pro Bucket. Um Fälle zu berücksichtigen, in denen nicht genügend Beobachtungen pro Bucket vorhanden sind, wird die Jackknife-Methode zur Berechnung des Konfidenzintervalls verwendet.
Warum Jackknife-Resampling verwenden?
Jackknife-Resampling ist der Standard bei Google, da es sich um eine vielseitige Methode handelt, die eine hohe Abdeckung bietet. Es eignet sich auch zum Erkennen von Ausreißern und zum Reduzieren der Verzerrung der Stichprobenschätzung. Darüber hinaus ist es besonders nützlich in Situationen, in denen nicht genügend Daten vorhanden sind, um eine genaue Schätzung mithilfe des zentralen Grenzwertsatzes zu erhalten. Daher wird es für die zusammengefassten Daten verwendet, um die Genauigkeit unserer Konfidenzintervalle weiter zu erhöhen.
Eine allgemeine Übersicht über das Jackknife-Resampling finden Sie hier . Wenn Sie weitere Erläuterungen zu seiner Nützlichkeit wünschen, finden Sie in diesem Dokument weitere Einzelheiten .
Können externe Werbetreibende die Leistung mehrerer Experimente nachträglich aggregieren und die Statistiken auf aggregierter Ebene neu berechnen?
Nein, Werbetreibende haben keinen Zugriff auf Daten auf Benutzerebene, um Buckets neu zu erstellen und den Jackknife-Algorithmus auszuführen. Derzeit gibt es keine internen Tools, um dies im Namen unserer Kunden zu tun.
Hat das Targeting Auswirkungen darauf, wie die Aufteilung des Auktionsanteils auf das Experiment und die ursprüngliche Kampagne angewendet wird?
Das Targeting hat keinen Einfluss auf die Aufteilung. Die Aufteilung wird auf berechtigte Auktionen angewendet, bevor das Targeting angewendet wird. Eine Aufteilung im Verhältnis 50:50 bedeutet beispielsweise, dass das Experiment und das Original an der gleichen Anzahl von Auktionen teilnehmen.
Was sind die Voraussetzungen, um einen echten A/A-Test sicherzustellen?
Bei einem A/A-Test handelt es sich um einen Test, bei dem das Experiment und das Original für die Dauer des Tests identisch sind (kein Unterschied bei Kampagnenanzeigen/Anzeigengruppen/Einstellungen usw. und keine Unterschiede bei den Anzeigengenehmigungen). Alle während des A/A-Tests vorgenommenen Änderungen müssten gleichzeitig am Experiment und an den Originalwaffen vorgenommen werden.
Was sind die erwarteten Ergebnisse eines A/A-Tests?
Es sollte keine statistisch signifikanten Unterschiede bei Klicks, Impressionen, CTR oder CPC geben.
Was ist der Unterschied zwischen suchbasierter Aufteilung und Cookie-basierter Aufteilung?
Dabei handelt es sich um zwei unterschiedliche Optionen, um zu entscheiden, welche Behandlung ein Benutzer erhält. Bei suchbasierten Experimentaufteilungen werden Benutzer bei jeder Suche zufällig entweder dem Experiment oder der ursprünglichen Kampagne zugeordnet. Es ist möglich, dass derselbe Nutzer sowohl das Experiment als auch Ihre ursprüngliche Kampagne sieht, wenn er mehrmals sucht. Bei Cookie-basierten Experimentaufteilungen sehen Benutzer möglicherweise nur eine Version Ihrer Kampagne, unabhängig davon, wie oft sie suchen. Dadurch kann sichergestellt werden, dass andere Faktoren Ihre Ergebnisse nicht beeinflussen.
Wie viele Eimer werden verwendet?
Zwanzig Eimer werden im Steuerarm und zwanzig Eimer im Behandlungsarm verwendet. Wenn zu viele Buckets vorhanden sind, kann es zu lange dauern, bis statistisch signifikante Ergebnisse erzielt werden. Wenn zu wenige Buckets vorhanden sind, sind die Berechnungen des Konfidenzintervalls möglicherweise nicht genau. Dadurch wird ein gutes Gleichgewicht zwischen praktischen Anforderungen und statistischer Aussagekraft erreicht.
No comments:
Post a Comment