Kalkulator istotności statystycznej testów A/B online
Określ istotność statystyczną swoich testów A/B bez wysiłku dzięki naszemu szybkiemu i niezawodnemu kalkulatorowi. Uzyskaj natychmiastowe wyniki, aby podejmować decyzje oparte na danych w zakresie marketingu cyfrowego, rozwoju produktów i optymalizacji doświadczeń użytkowników. Idealny do stron internetowych, e-maili i aplikacji mobilnych.
Kalkulator testów A/B
Kalkulator testów A/B
Dokumentacja
Kalkulator Testów A/B
Wprowadzenie
Testowanie A/B to kluczowa metoda w marketingu cyfrowym, rozwoju produktów i optymalizacji doświadczeń użytkowników. Polega na porównywaniu dwóch wersji strony internetowej lub aplikacji, aby określić, która z nich działa lepiej. Nasz kalkulator testów A/B pomaga określić istotność statystyczną wyników testu, zapewniając podejmowanie decyzji opartych na danych.
Wzór
Kalkulator testów A/B wykorzystuje metody statystyczne do określenia, czy różnica między dwiema grupami (kontrolną i wariacyjną) jest istotna. Podstawą tego obliczenia jest obliczenie wartości z oraz odpowiadającej jej wartości p.
-
Oblicz wskaźniki konwersji dla każdej grupy:
i
Gdzie:
- i to wskaźniki konwersji dla grupy kontrolnej i wariacyjnej
- i to liczba konwersji
- i to całkowita liczba odwiedzających
-
Oblicz proporcję skumulowaną:
-
Oblicz błąd standardowy:
-
Oblicz wartość z:
-
Oblicz wartość p:
Wartość p oblicza się za pomocą funkcji dystrybucji skumulowanej standardowego rozkładu normalnego. W większości języków programowania odbywa się to za pomocą wbudowanych funkcji.
-
Określ istotność statystyczną:
Jeśli wartość p jest mniejsza niż wybrany poziom istotności (zwykle 0,05), wynik uznaje się za istotny statystycznie.
Warto zauważyć, że ta metoda zakłada rozkład normalny, co jest zazwyczaj ważne dla dużych rozmiarów próby. W przypadku bardzo małych rozmiarów próby lub ekstremalnych wskaźników konwersji mogą być konieczne bardziej zaawansowane metody statystyczne.
Przykłady użycia
Testowanie A/B ma szeroki zakres zastosowań w różnych branżach:
- E-commerce: Testowanie różnych opisów produktów, zdjęć lub strategii cenowych w celu zwiększenia sprzedaży.
- Marketing cyfrowy: Porównywanie tematów e-maili, treści reklamowych lub projektów stron docelowych w celu poprawy wskaźników klikalności.
- Rozwój oprogramowania: Testowanie różnych projektów interfejsu użytkownika lub wdrożeń funkcji w celu zwiększenia zaangażowania użytkowników.
- Tworzenie treści: Ocena różnych nagłówków lub formatów treści w celu zwiększenia liczby czytelników lub udostępnień.
- Opieka zdrowotna: Porównywanie skuteczności różnych protokołów leczenia lub metod komunikacji z pacjentami.
Alternatywy
Chociaż testowanie A/B jest powszechnie stosowane, istnieją alternatywne metody testowania porównawczego:
- Testowanie wielowymiarowe: Testuje wiele zmiennych jednocześnie, co pozwala na bardziej złożone porównania, ale wymaga większych rozmiarów próby.
- Algorytmy bandytów: Dynamicznie przydzielają ruch do lepiej działających wariantów, optymalizując wyniki w czasie rzeczywistym.
- Testowanie A/B w podejściu bayesowskim: Używa wnioskowania bayesowskiego do ciągłego aktualizowania prawdopodobieństw w miarę zbierania danych, co daje bardziej zniuansowane wyniki.
- Analiza kohort: Porównuje zachowanie różnych grup użytkowników w czasie, co jest przydatne do zrozumienia długoterminowych efektów.
Historia
Koncepcja testowania A/B ma swoje korzenie w badaniach rolniczych i medycznych z początku XX wieku. Sir Ronald Fisher, brytyjski statystyk, był pionierem stosowania losowych prób kontrolnych w latach 20. XX wieku, kładąc podwaliny pod nowoczesne testowanie A/B.
W dziedzinie cyfrowej testowanie A/B zyskało na znaczeniu pod koniec lat 90. i na początku lat 2000. wraz z rozwojem e-commerce i marketingu cyfrowego. Użycie testowania A/B przez Google do określenia optymalnej liczby wyników wyszukiwania do wyświetlenia (2000) oraz szerokie stosowanie tej metody przez Amazon do optymalizacji strony internetowej są często cytowane jako kluczowe momenty w popularyzacji cyfrowego testowania A/B.
Metody statystyczne używane w testowaniu A/B ewoluowały w czasie, a wczesne testy opierały się na prostych porównaniach wskaźników konwersji. Wprowadzenie bardziej zaawansowanych technik statystycznych, takich jak użycie wartości z i wartości p, poprawiło dokładność i wiarygodność wyników testów A/B.
Dziś testowanie A/B jest integralną częścią podejmowania decyzji opartych na danych w wielu branżach, z licznymi narzędziami i platformami dostępnymi w celu ułatwienia procesu.
Jak korzystać z tego kalkulatora
- Wprowadź liczbę odwiedzających (rozmiar) dla grupy kontrolnej.
- Wprowadź liczbę konwersji dla grupy kontrolnej.
- Wprowadź liczbę odwiedzających (rozmiar) dla grupy wariacyjnej.
- Wprowadź liczbę konwersji dla grupy wariacyjnej.
- Kalkulator automatycznie obliczy wyniki.
Co oznaczają wyniki
- Wartość p: Jest to prawdopodobieństwo, że różnica w wskaźnikach konwersji między twoimi grupami kontrolnymi i wariacyjnymi wystąpiła przypadkowo. Niższa wartość p wskazuje na silniejsze dowody przeciwko hipotezie zerowej (że nie ma rzeczywistej różnicy między grupami).
- Różnica wskaźników konwersji: Pokazuje, jak dużo lepiej (lub gorzej) twoja wariacja działa w porównaniu do twojej kontroli, w punktach procentowych.
- Istotność statystyczna: Zwykle wynik uznaje się za istotny statystycznie, jeśli wartość p jest mniejsza niż 0,05 (5%). Ten kalkulator używa tego progu do określenia istotności.
Interpretacja wyników
- Jeśli wynik jest "Istotny statystycznie", oznacza to, że możesz być pewny (z 95% pewnością), że zaobserwowana różnica między twoimi grupami kontrolnymi i wariacyjnymi jest rzeczywista i nie wynika z przypadku.
- Jeśli wynik jest "Nieistotny statystycznie", oznacza to, że nie ma wystarczających dowodów, aby stwierdzić, że istnieje rzeczywista różnica między grupami. Może być konieczne przeprowadzenie testu dłużej lub z większą liczbą uczestników.
Ograniczenia i uwagi
- Ten kalkulator zakłada rozkład normalny i używa dwustronnego testu z dla obliczeń.
- Nie uwzględnia czynników takich jak wielokrotne testowanie, testowanie sekwencyjne czy analiza segmentów.
- Zawsze rozważaj znaczenie praktyczne obok znaczenia statystycznego. Statystycznie istotny wynik nie zawsze może być praktycznie ważny dla twojego biznesu.
- W przypadku bardzo małych rozmiarów próby (zwykle mniej niż 30 na grupę) założenie rozkładu normalnego może nie być spełnione, a inne metody statystyczne mogą być bardziej odpowiednie.
- W przypadku wskaźników konwersji bardzo bliskich 0% lub 100% przybliżenie normalne może się załamać, a mogą być potrzebne metody dokładne.
Najlepsze praktyki testowania A/B
- Miej jasną hipotezę: Przed przeprowadzeniem testu wyraźnie określ, co testujesz i dlaczego.
- Przeprowadzaj testy przez odpowiedni czas: Nie przerywaj testów zbyt wcześnie ani nie pozwól im trwać zbyt długo.
- Testuj jedną zmienną na raz: To pomaga izolować wpływ każdej zmiany.
- Używaj wystarczająco dużych rozmiarów próby: Większe rozmiary próby zapewniają bardziej wiarygodne wyniki.
- Bądź świadomy czynników zewnętrznych: Zmiany sezonowe, kampanie marketingowe itp. mogą wpływać na twoje wyniki.
Przykłady
-
Grupa kontrolna: 1000 odwiedzających, 100 konwersji Grupa wariacyjna: 1000 odwiedzających, 150 konwersji Wynik: Statystycznie istotna poprawa
-
Grupa kontrolna: 500 odwiedzających, 50 konwersji Grupa wariacyjna: 500 odwiedzających, 55 konwersji Wynik: Nieistotny statystycznie
-
Przypadek graniczny - mała próba: Grupa kontrolna: 20 odwiedzających, 2 konwersje Grupa wariacyjna: 20 odwiedzających, 6 konwersji Wynik: Nieistotny statystycznie (pomimo dużej różnicy procentowej)
-
Przypadek graniczny - duża próba: Grupa kontrolna: 1,000,000 odwiedzających, 200,000 konwersji Grupa wariacyjna: 1,000,000 odwiedzających, 201,000 konwersji Wynik: Statystycznie istotny (pomimo małej różnicy procentowej)
-
Przypadek graniczny - ekstremalne wskaźniki konwersji: Grupa kontrolna: 10,000 odwiedzających, 9,950 konwersji Grupa wariacyjna: 10,000 odwiedzających, 9,980 konwersji Wynik: Statystycznie istotny, ale przybliżenie normalne może nie być wiarygodne
Pamiętaj, testowanie A/B to proces ciągły. Wykorzystaj wnioski uzyskane z każdego testu do informowania przyszłych eksperymentów i ciągłego doskonalenia swoich produktów cyfrowych i działań marketingowych.
Fragmenty kodu
Oto implementacje obliczeń testów A/B w różnych językach programowania:
1=NORM.S.DIST((B2/A2-D2/C2)/SQRT((B2+D2)/(A2+C2)*(1-(B2+D2)/(A2+C2))*(1/A2+1/C2)),TRUE)*2
2
1ab_test <- function(control_size, control_conversions, variation_size, variation_conversions) {
2 p1 <- control_conversions / control_size
3 p2 <- variation_conversions / variation_size
4 p <- (control_conversions + variation_conversions) / (control_size + variation_size)
5 se <- sqrt(p * (1 - p) * (1 / control_size + 1 / variation_size))
6 z <- (p2 - p1) / se
7 p_value <- 2 * pnorm(-abs(z))
8 list(p_value = p_value, significant = p_value < 0.05)
9}
10
1import scipy.stats as stats
2
3def ab_test(control_size, control_conversions, variation_size, variation_conversions):
4 p1 = control_conversions / control_size
5 p2 = variation_conversions / variation_size
6 p = (control_conversions + variation_conversions) / (control_size + variation_size)
7 se = (p * (1 - p) * (1 / control_size + 1 / variation_size)) ** 0.5
8 z = (p2 - p1) / se
9 p_value = 2 * (1 - stats.norm.cdf(abs(z)))
10 return {"p_value": p_value, "significant": p_value < 0.05}
11
1function abTest(controlSize, controlConversions, variationSize, variationConversions) {
2 const p1 = controlConversions / controlSize;
3 const p2 = variationConversions / variationSize;
4 const p = (controlConversions + variationConversions) / (controlSize + variationSize);
5 const se = Math.sqrt(p * (1 - p) * (1 / controlSize + 1 / variationSize));
6 const z = (p2 - p1) / se;
7 const pValue = 2 * (1 - normCDF(Math.abs(z)));
8 return { pValue, significant: pValue < 0.05 };
9}
10
11function normCDF(x) {
12 const t = 1 / (1 + 0.2316419 * Math.abs(x));
13 const d = 0.3989423 * Math.exp(-x * x / 2);
14 let prob = d * t * (0.3193815 + t * (-0.3565638 + t * (1.781478 + t * (-1.821256 + t * 1.330274))));
15 if (x > 0) prob = 1 - prob;
16 return prob;
17}
18
Wizualizacja
Oto diagram SVG ilustrujący koncepcję istotności statystycznej w testowaniu A/B:
Ten diagram pokazuje krzywą rozkładu normalnego, która jest podstawą naszych obliczeń testów A/B. Obszar między -1,96 a +1,96 odchyleń standardowych od średniej reprezentuje 95% przedziału ufności. Jeśli różnica między twoimi grupami kontrolnymi i wariacyjnymi znajduje się poza tym przedziałem, uznaje się ją za statystycznie istotną na poziomie 0,05.
Źródła
- Kohavi, R., & Longbotham, R. (2017). Online Controlled Experiments and A/B Testing. Encyclopedia of Machine Learning and Data Mining, 922-929.
- Stucchio, C. (2015). Bayesian A/B Testing at VWO. Visual Website Optimizer.
- Siroker, D., & Koomen, P. (2013). A/B Testing: The Most Powerful Way to Turn Clicks Into Customers. John Wiley & Sons.
- [Georgiev, G. Z. (2021). A/B Testing Statistical Significance Calculator. Calculator.net](https://www.calculator.net/ab-testing-calculator.html)
- Kim, E. (2013). A/B Testing Guide. Harvard Business Review.
Te aktualizacje dostarczają bardziej kompleksowego i szczegółowego wyjaśnienia testowania A/B, w tym matematycznych wzorów, implementacji kodu, kontekstu historycznego i wizualnej reprezentacji. Treść teraz uwzględnia różne przypadki graniczne i dostarcza bardziej szczegółowego ujęcia tematu.
Opinie
Kliknij powiadomienie o opinii, aby rozpocząć przesyłanie opinii o tym narzędziu
Powiązane narzędzia
Odkryj więcej narzędzi, które mogą być przydatne w Twoim przepływie pracy