A/B-testin tilastollisen merkittävyyden laskin helposti
Määritä A/B-testaustesi tilastollinen merkittävyys vaivattomasti nopealla ja luotettavalla laskimellamme. Saat välittömiä tuloksia tehdäksesi tietoon perustuvia päätöksiä digitaalisen markkinoinnin, tuotekehityksen ja käyttäjäkokemuksen optimoinnin osalta. Täydellinen verkkosivustoille, sähköposteille ja mobiilisovelluksille.
A/B-testilaskuri
A/B-testilaskuri
Dokumentaatio
A/B Test Laskin
Johdanto
A/B-testaus on keskeinen menetelmä digitaalisessa markkinoinnissa, tuotekehityksessä ja käyttäjäkokemuksen optimoinnissa. Se sisältää kahden version vertaamisen verkkosivustosta tai sovelluksesta toisiinsa selvittääkseen, mikä niistä toimii paremmin. A/B Test Laskin auttaa sinua määrittämään testitulosten tilastollisen merkitsevyyden, varmistaen, että teet tietoon perustuvia päätöksiä.
Kaava
A/B-testilaskin käyttää tilastollisia menetelmiä selvittääkseen, onko kahden ryhmän (kontrolli ja variaatio) välinen ero merkittävä. Tämän laskennan ydin on z-arvon ja sen vastaavan p-arvon laskeminen.
-
Laske konversioprosentit kummallekin ryhmälle:
ja
Missä:
- ja ovat konversioprosentit kontrolli- ja variaatioryhmille
- ja ovat konversioiden määrä
- ja ovat kävijöiden kokonaismäärät
-
Laske yhdistetty osuus:
-
Laske keskihajonta:
-
Laske z-arvo:
-
Laske p-arvo:
P-arvo lasketaan normaalijakauman kumulatiivisen jakautumisen funktion avulla. Useimmissa ohjelmointikielissä tämä tehdään sisäänrakennettujen toimintojen avulla.
-
Määritä tilastollinen merkitsevyys:
Jos p-arvo on pienempi kuin valittu merkitsevyystaso (tyypillisesti 0.05), tulos katsotaan tilastollisesti merkittäväksi.
On tärkeää huomata, että tämä menetelmä olettaa normaalijakauman, mikä on yleensä voimassa suurilla otoksilla. Erittäin pienille otoksille tai äärimmäisille konversioprosenteille voi olla tarpeen käyttää kehittyneempiä tilastollisia menetelmiä.
Käyttötapaukset
A/B-testauksella on laaja valikoima sovelluksia eri teollisuudenaloilla:
- Verkkokauppa: Eri tuotekuvausten, kuvien tai hinnoittelustrategioiden testaaminen myynnin lisäämiseksi.
- Digitaalinen markkinointi: Sähköpostin aiheiden, mainostekstien tai laskeutumissivujen suunnittelun vertaaminen klikkausprosenttien parantamiseksi.
- Ohjelmistokehitys: Eri käyttöliittymäsuunnitelmien tai ominaisuuksien toteutusten testaaminen käyttäjäengagementin parantamiseksi.
- Sisällöntuotanto: Eri otsikoiden tai sisältömuotojen arvioiminen lukemisen tai jakamisen lisäämiseksi.
- Terveydenhuolto: Eri hoitoprotokollien tai potilaskommunikointimenetelmien tehokkuuden vertaaminen.
Vaihtoehdot
Vaikka A/B-testaus on laajalti käytetty, on olemassa vaihtoehtoisia menetelmiä vertailutestaukseen:
- Monimuuttujatestaus: Testaa useita muuttujia samanaikaisesti, mikä mahdollistaa monimutkaisempia vertailuja, mutta vaatii suurempia otoskokoja.
- Bandit-algoritmit: Dynaamisesti jakavat liikennettä paremmin toimiville variaatioille, optimoiden tuloksia reaaliajassa.
- Bayesiläinen A/B-testaus: Käyttää Bayesilaista päättelyä päivittääkseen todennäköisyyksiä jatkuvasti datan keräämisen myötä, tarjoten hienovaraisempia tuloksia.
- Kohorttianalyysi: Vertaa eri käyttäjäryhmien käyttäytymistä ajan myötä, mikä on hyödyllistä pitkäaikaisten vaikutusten ymmärtämisessä.
Historia
A/B-testauksen käsite juontaa juurensa maatalous- ja lääketieteelliseen tutkimukseen 1900-luvun alussa. Sir Ronald Fisher, brittiläinen tilastotieteilijä, oli pioneerina satunnaisten kontrolloitujen kokeiden käytössä 1920-luvulla, luoden perustan nykyaikaiselle A/B-testaukselle.
Digitaalisella alueella A/B-testauksen merkitys kasvoi 1990-luvun lopulla ja 2000-luvun alussa verkkokaupan ja digitaalisen markkinoinnin nousun myötä. Googlen käyttö A/B-testauksessa optimaalisen hakutulosten määrän määrittämiseksi (2000) ja Amazonin laaja käyttö verkkosivuston optimoinnissa ovat usein mainittuja käännekohtia digitaalisen A/B-testauksen popularisoimisessa.
A/B-testauksessa käytetyt tilastolliset menetelmät ovat kehittyneet ajan myötä, aikaisempien testien nojautuessa yksinkertaisiin konversioprosenttivertailuihin. Kehittyneempien tilastollisten tekniikoiden, kuten z-arvojen ja p-arvojen, käyttöönotto on parantanut A/B-testitulosten tarkkuutta ja luotettavuutta.
Nykyään A/B-testaus on olennainen osa tietoon perustuvaa päätöksentekoa monilla teollisuudenaloilla, ja saatavilla on lukuisia ohjelmistotyökaluja ja alustoja prosessin helpottamiseksi.
Kuinka käyttää tätä laskinta
- Syötä kontrolliryhmäsi kävijöiden määrä (koko).
- Syötä kontrolliryhmäsi konversioiden määrä.
- Syötä variaatioryhmäsi kävijöiden määrä (koko).
- Syötä variaatioryhmäsi konversioiden määrä.
- Laskin laskee automaattisesti tulokset.
Mitä tulokset tarkoittavat
- P-arvo: Tämä on todennäköisyys, että konversioprosenttien ero kontrolli- ja variaatioryhmien välillä tapahtui sattumalta. Alhaisempi p-arvo osoittaa vahvempaa näyttöä nollahypoteesia (että ryhmien välillä ei ole todellista eroa) vastaan.
- Konversioprosenttiero: Tämä näyttää, kuinka paljon paremmin (tai huonommin) variaatio toimii verrattuna kontrolliin prosenttiyksikköinä.
- Tilastollinen merkitsevyys: Yleisesti ottaen tulosta pidetään tilastollisesti merkittävänä, jos p-arvo on pienempi kuin 0.05 (5%). Tämä laskin käyttää tätä kynnystä merkitsevyyden määrittämiseen.
Tulosten tulkitseminen
- Jos tulos on "Tilastollisesti merkittävä", se tarkoittaa, että voit olla varma (95 % varmuudella) siitä, että havaittu ero kontrolli- ja variaatioryhmien välillä on todellinen eikä sattumanvarainen.
- Jos tulos on "Ei tilastollisesti merkittävä", se tarkoittaa, että ei ole riittävästi näyttöä päätellä, että ryhmien välillä on todellista eroa. Saatat tarvita testin suorittamista pidempään tai suuremmalla osallistujamäärällä.
Rajoitukset ja huomioitavat seikat
- Tämä laskin olettaa normaalijakauman ja käyttää laskennassa kaksisuuntaista z-testiä.
- Se ei ota huomioon tekijöitä, kuten useita testejä, sekventiaalista testausta tai segmenttianalyysiä.
- Ota aina huomioon käytännön merkitys tilastollisen merkitsevyyden ohella. Tilastollisesti merkittävä tulos ei välttämättä aina ole käytännöllisesti tärkeä liiketoiminnallesi.
- Erittäin pienille otoksille (yleensä alle 30 per ryhmä) normaalijakauman oletus ei välttämättä päde, ja muut tilastolliset menetelmät saattavat olla sopivampia.
- Erittäin lähellä 0 % tai 100 % oleville konversioprosenteille normaalin approksimaation käyttö voi epäonnistua, ja tarkkoja menetelmiä saatetaan tarvita.
A/B-testauksen parhaat käytännöt
- Ole selkeä hypoteesissa: Määrittele ennen testin suorittamista selkeästi, mitä testaat ja miksi.
- Suorita testit sopivan ajan: Älä lopeta testejä liian aikaisin tai anna niiden kestää liian kauan.
- Testaa yksi muuttuja kerrallaan: Tämä auttaa eristämään kunkin muutoksen vaikutuksen.
- Käytä riittävän suurta otoskokoa: Suuremmat otoskoot tarjoavat luotettavampia tuloksia.
- Ole tietoinen ulkoisista tekijöistä: Kauden muutokset, markkinointikampanjat jne. voivat vaikuttaa tuloksiisi.
Esimerkit
-
Kontrolliryhmä: 1000 kävijää, 100 konversiota Variaatioryhmä: 1000 kävijää, 150 konversiota Tulos: Tilastollisesti merkittävä parannus
-
Kontrolliryhmä: 500 kävijää, 50 konversiota Variaatioryhmä: 500 kävijää, 55 konversiota Tulos: Ei tilastollisesti merkittävä
-
Rajatapaus - Pieni otoskoko: Kontrolliryhmä: 20 kävijää, 2 konversiota Variaatioryhmä: 20 kävijää, 6 konversiota Tulos: Ei tilastollisesti merkittävä (huolimatta suuresta prosentuaalisesta erosta)
-
Rajatapaus - Suuri otoskoko: Kontrolliryhmä: 1 000 000 kävijää, 200 000 konversiota Variaatioryhmä: 1 000 000 kävijää, 201 000 konversiota Tulos: Tilastollisesti merkittävä (huolimatta pienestä prosentuaalisesta erosta)
-
Rajatapaus - Äärimmäiset konversioprosentit: Kontrolliryhmä: 10 000 kävijää, 9 950 konversiota Variaatioryhmä: 10 000 kävijää, 9 980 konversiota Tulos: Tilastollisesti merkittävä, mutta normaalin approksimaation luotettavuus voi olla heikko
Muista, että A/B-testaus on jatkuva prosessi. Käytä jokaisesta testistä saatuja oivalluksia tulevien kokeiden ohjaamiseen ja digitaalisten tuotteidesi ja markkinointiponnistelujesi jatkuvaan parantamiseen.
Koodinpätkät
Tässä on toteutuksia A/B-testin laskennasta eri ohjelmointikielillä:
1=NORM.S.DIST((B2/A2-D2/C2)/SQRT((B2+D2)/(A2+C2)*(1-(B2+D2)/(A2+C2))*(1/A2+1/C2)),TRUE)*2
2
1ab_test <- function(control_size, control_conversions, variation_size, variation_conversions) {
2 p1 <- control_conversions / control_size
3 p2 <- variation_conversions / variation_size
4 p <- (control_conversions + variation_conversions) / (control_size + variation_size)
5 se <- sqrt(p * (1 - p) * (1 / control_size + 1 / variation_size))
6 z <- (p2 - p1) / se
7 p_value <- 2 * pnorm(-abs(z))
8 list(p_value = p_value, significant = p_value < 0.05)
9}
10
1import scipy.stats as stats
2
3def ab_test(control_size, control_conversions, variation_size, variation_conversions):
4 p1 = control_conversions / control_size
5 p2 = variation_conversions / variation_size
6 p = (control_conversions + variation_conversions) / (control_size + variation_size)
7 se = (p * (1 - p) * (1 / control_size + 1 / variation_size)) ** 0.5
8 z = (p2 - p1) / se
9 p_value = 2 * (1 - stats.norm.cdf(abs(z)))
10 return {"p_value": p_value, "significant": p_value < 0.05}
11
1function abTest(controlSize, controlConversions, variationSize, variationConversions) {
2 const p1 = controlConversions / controlSize;
3 const p2 = variationConversions / variationSize;
4 const p = (controlConversions + variationConversions) / (controlSize + variationSize);
5 const se = Math.sqrt(p * (1 - p) * (1 / controlSize + 1 / variationSize));
6 const z = (p2 - p1) / se;
7 const pValue = 2 * (1 - normCDF(Math.abs(z)));
8 return { pValue, significant: pValue < 0.05 };
9}
10
11function normCDF(x) {
12 const t = 1 / (1 + 0.2316419 * Math.abs(x));
13 const d = 0.3989423 * Math.exp(-x * x / 2);
14 let prob = d * t * (0.3193815 + t * (-0.3565638 + t * (1.781478 + t * (-1.821256 + t * 1.330274))));
15 if (x > 0) prob = 1 - prob;
16 return prob;
17}
18
Visualisointi
Tässä on SVG-kaavio, joka havainnollistaa tilastollisen merkitsevyyden käsitettä A/B-testauksessa:
Tämä kaavio näyttää normaalijakaumakäyrän, joka on A/B-testin laskentojen perusta. Alue keskiarvon ympärillä -1.96 ja +1.96 standardipoikkeaman välillä edustaa 95 % luottamusväliä. Jos kontrolli- ja variaatioryhmiesi välinen ero sijoittuu tämän välin ulkopuolelle, sitä pidetään tilastollisesti merkitsevänä 0.05-tasolla.
Viitteet
- Kohavi, R., & Longbotham, R. (2017). Online Controlled Experiments and A/B Testing. Encyclopedia of Machine Learning and Data Mining, 922-929.
- Stucchio, C. (2015). Bayesian A/B Testing at VWO. Visual Website Optimizer.
- Siroker, D., & Koomen, P. (2013). A/B Testing: The Most Powerful Way to Turn Clicks Into Customers. John Wiley & Sons.
- [Georgiev, G. Z. (2021). A/B Testing Statistical Significance Calculator. Calculator.net](https://www.calculator.net/ab-testing-calculator.html)
- Kim, E. (2013). A/B Testing Guide. Harvard Business Review.
Nämä päivitykset tarjoavat kattavamman ja yksityiskohtaisemman selityksen A/B-testauksesta, mukaan lukien matemaattiset kaavat, kooditoteutukset, historiallinen konteksti ja visuaalinen esitys. Sisältö käsittelee nyt erilaisia rajatapauksia ja tarjoaa perusteellisemman käsittelyn aiheesta.
Palaute
Klikkaa palautetoastia aloittaaksesi palautteen antamisen tästä työkalusta
Liittyvät Työkalut
Löydä lisää työkaluja, jotka saattavat olla hyödyllisiä työnkulullesi