เครื่องคำนวณความสำคัญทางสถิติสำหรับการทดสอบ A/B

กำหนดความสำคัญทางสถิติของการทดสอบ A/B ของคุณได้อย่างง่ายดายด้วยเครื่องคำนวณที่รวดเร็วและเชื่อถือได้ของเรา รับผลลัพธ์ทันทีเพื่อทำการตัดสินใจที่ขับเคลื่อนด้วยข้อมูลสำหรับการตลาดดิจิทัล การพัฒนาผลิตภัณฑ์ และการปรับปรุงประสบการณ์ผู้ใช้ เหมาะสำหรับเว็บไซต์ อีเมล และแอปมือถือ

เครื่องคิดเลข A/B Test

📚

เอกสารประกอบการใช้งาน

A/B Test Calculator

Introduction

การทดสอบ A/B เป็นวิธีที่สำคัญในด้านการตลาดดิจิทัล การพัฒนาผลิตภัณฑ์ และการปรับแต่งประสบการณ์ผู้ใช้ มันเกี่ยวข้องกับการเปรียบเทียบสองเวอร์ชันของหน้าเว็บหรือแอปพลิเคชันกับกันและกันเพื่อกำหนดว่าเวอร์ชันใดทำงานได้ดีกว่า เครื่องคำนวณ A/B Test ของเราช่วยให้คุณสามารถกำหนดความสำคัญทางสถิติของผลการทดสอบของคุณ เพื่อให้แน่ใจว่าคุณทำการตัดสินใจที่ขับเคลื่อนด้วยข้อมูล

Formula

เครื่องคำนวณการทดสอบ A/B ใช้เทคนิคทางสถิติเพื่อกำหนดว่าความแตกต่างระหว่างสองกลุ่ม (กลุ่มควบคุมและกลุ่มตัวอย่าง) มีความสำคัญหรือไม่ แกนหลักของการคำนวณนี้เกี่ยวข้องกับการคำนวณ z-score และ p-value ที่เกี่ยวข้อง

คำนวณอัตราการแปลงสำหรับแต่ละกลุ่ม:

$p_1 = \frac{x_1}{n_1}$ และ $p_2 = \frac{x_2}{n_2}$

โดยที่:
- $p_1$ และ $p_2$ คืออัตราการแปลงสำหรับกลุ่มควบคุมและกลุ่มตัวอย่าง
- $x_1$ และ $x_2$ คือจำนวนการแปลง
- $n_1$ และ $n_2$ คือจำนวนผู้เข้าชมทั้งหมด
คำนวณสัดส่วนรวม:

$p = \frac{x_1 + x_2}{n_1 + n_2}$
คำนวณความผิดพลาดมาตรฐาน:

$SE = \sqrt{p(1-p)(\frac{1}{n_1} + \frac{1}{n_2})}$
คำนวณ z-score:

$z = \frac{p_2 - p_1}{SE}$
คำนวณ p-value:

p-value จะถูกคำนวณโดยใช้ฟังก์ชันการแจกแจงสะสมของการแจกแจงปกติแบบมาตรฐาน ในภาษาโปรแกรมส่วนใหญ่จะทำได้โดยใช้ฟังก์ชันในตัว
กำหนดความสำคัญทางสถิติ:

หาก p-value น้อยกว่าระดับความสำคัญที่เลือก (โดยทั่วไปคือ 0.05) ผลลัพธ์จะถือว่ามีความสำคัญทางสถิติ

สิ่งสำคัญที่ต้องทราบคือวิธีนี้สมมติให้มีการแจกแจงแบบปกติ ซึ่งโดยทั่วไปจะใช้ได้สำหรับขนาดตัวอย่างที่ใหญ่ สำหรับขนาดตัวอย่างที่เล็กมากหรืออัตราการแปลงที่สุดขั้ว อาจจำเป็นต้องใช้วิธีทางสถิติที่ซับซ้อนมากขึ้น

Use Cases

การทดสอบ A/B มีการใช้งานที่หลากหลายในหลายอุตสาหกรรม:

อีคอมเมิร์ซ: ทดสอบคำอธิบายผลิตภัณฑ์ รูปภาพ หรือกลยุทธ์การตั้งราคาเพื่อเพิ่มยอดขาย
การตลาดดิจิทัล: เปรียบเทียบหัวข้ออีเมล เนื้อหาโฆษณา หรือการออกแบบหน้าแลนดิ้งเพื่อปรับปรุงอัตราการคลิกผ่าน
การพัฒนาซอฟต์แวร์: ทดสอบการออกแบบส่วนติดต่อผู้ใช้หรือการดำเนินการฟีเจอร์ต่าง ๆ เพื่อเพิ่มการมีส่วนร่วมของผู้ใช้
การสร้างเนื้อหา: ประเมินหัวข้อหรือรูปแบบเนื้อหาที่แตกต่างกันเพื่อเพิ่มการอ่านหรือการแชร์
การดูแลสุขภาพ: เปรียบเทียบประสิทธิภาพของโปรโตคอลการรักษาหรือวิธีการสื่อสารกับผู้ป่วยที่แตกต่างกัน

Alternatives

แม้ว่าการทดสอบ A/B จะได้รับความนิยม แต่ก็มีวิธีการเปรียบเทียบการทดสอบทางเลือกอื่น ๆ:

การทดสอบหลายตัวแปร: ทดสอบหลายตัวแปรพร้อมกัน ทำให้สามารถเปรียบเทียบที่ซับซ้อนมากขึ้น แต่ต้องการขนาดตัวอย่างที่ใหญ่ขึ้น
อัลกอริธึม Bandit: จัดสรรการเข้าชมไปยังตัวแปรที่ทำงานได้ดีกว่าแบบไดนามิก ปรับผลลัพธ์ในเวลาจริง
การทดสอบ A/B แบบเบย์เซียน: ใช้การอนุมานแบบเบย์เซียนเพื่ออัปเดตความน่าจะเป็นอย่างต่อเนื่องเมื่อมีการเก็บข้อมูล ทำให้ได้ผลลัพธ์ที่ละเอียดมากขึ้น
การวิเคราะห์กลุ่ม: เปรียบเทียบพฤติกรรมของกลุ่มผู้ใช้ที่แตกต่างกันตามเวลา มีประโยชน์ในการทำความเข้าใจผลกระทบระยะยาว

History

แนวคิดของการทดสอบ A/B มีรากฐานมาจากการวิจัยทางการเกษตรและการแพทย์ตั้งแต่ต้นศตวรรษที่ 20 เซอร์ โรนัลด์ ฟิชเชอร์ นักสถิติชาวอังกฤษ ได้ปูพื้นฐานการใช้การทดลองแบบสุ่มควบคุมในทศวรรษ 1920 ซึ่งเป็นพื้นฐานสำหรับการทดสอบ A/B สมัยใหม่

ในโลกดิจิทัล การทดสอบ A/B ได้รับความนิยมในช่วงปลายทศวรรษ 1990 และต้นทศวรรษ 2000 พร้อมกับการเติบโตของอีคอมเมิร์ซและการตลาดดิจิทัล การใช้การทดสอบ A/B ของ Google เพื่อตัดสินใจเกี่ยวกับจำนวนผลการค้นหาที่ดีที่สุดที่จะแสดง (2000) และการใช้วิธีนี้อย่างกว้างขวางของ Amazon สำหรับการปรับแต่งเว็บไซต์มักถูกยกมาเป็นช่วงเวลาที่สำคัญในการทำให้การทดสอบ A/B ดิจิทัลเป็นที่นิยม

วิธีการทางสถิติที่ใช้ในการทดสอบ A/B ได้พัฒนาขึ้นตลอดเวลา โดยการทดสอบในช่วงแรกพึ่งพาการเปรียบเทียบอัตราการแปลงที่ง่าย การนำเทคนิคทางสถิติที่ซับซ้อนมากขึ้น เช่น การใช้ z-scores และ p-values มาใช้ได้ปรับปรุงความถูกต้องและความน่าเชื่อถือของผลการทดสอบ A/B

ในปัจจุบัน การทดสอบ A/B เป็นส่วนสำคัญของการตัดสินใจที่ขับเคลื่อนด้วยข้อมูลในหลายอุตสาหกรรม โดยมีเครื่องมือและแพลตฟอร์มซอฟต์แวร์จำนวนมากที่พร้อมให้บริการเพื่ออำนวยความสะดวกในกระบวนการนี้

How to Use This Calculator

ป้อนจำนวนผู้เข้าชม (ขนาด) สำหรับกลุ่มควบคุมของคุณ
ป้อนจำนวนการแปลงสำหรับกลุ่มควบคุมของคุณ
ป้อนจำนวนผู้เข้าชม (ขนาด) สำหรับกลุ่มตัวอย่างของคุณ
ป้อนจำนวนการแปลงสำหรับกลุ่มตัวอย่างของคุณ
เครื่องคำนวณจะคำนวณผลลัพธ์โดยอัตโนมัติ

What the Results Mean

P-value: นี่คือความน่าจะเป็นที่ความแตกต่างในอัตราการแปลงระหว่างกลุ่มควบคุมและกลุ่มตัวอย่างของคุณเกิดขึ้นโดยบังเอิญ P-value ที่ต่ำกว่าจะบ่งชี้ว่ามีหลักฐานที่แข็งแกร่งกว่าในการต่อต้านสมมติฐานศูนย์ (ว่ามีความแตกต่างที่แท้จริงระหว่างกลุ่ม)
Conversion Rate Difference: แสดงให้เห็นว่ากลุ่มตัวอย่างของคุณทำงานได้ดีกว่า (หรือต่ำกว่า) กลุ่มควบคุมของคุณมากเพียงใดในหน่วยเปอร์เซ็นต์
Statistical Significance: โดยทั่วไปแล้ว ผลลัพธ์จะถือว่ามีความสำคัญทางสถิติหาก p-value น้อยกว่า 0.05 (5%) เครื่องคำนวณนี้ใช้เกณฑ์นี้ในการกำหนดความสำคัญ

Interpreting the Results

หากผลลัพธ์คือ "Statistically Significant" หมายความว่าคุณสามารถมั่นใจได้ (ด้วยความมั่นใจ 95%) ว่าความแตกต่างที่สังเกตเห็นระหว่างกลุ่มควบคุมและกลุ่มตัวอย่างของคุณเป็นจริงและไม่เกิดจากความบังเอิญ
หากผลลัพธ์คือ "Not Statistically Significant" หมายความว่าไม่มีหลักฐานเพียงพอที่จะสรุปว่ามีความแตกต่างที่แท้จริงระหว่างกลุ่ม คุณอาจต้องทำการทดสอบนานขึ้นหรือต้องมีผู้เข้าร่วมมากขึ้น

Limitations and Considerations

เครื่องคำนวณนี้สมมติให้มีการแจกแจงแบบปกติและใช้การทดสอบ z-test แบบสองทิศทางสำหรับการคำนวณ
ไม่ได้คำนึงถึงปัจจัยต่าง ๆ เช่น การทดสอบหลายครั้ง การทดสอบตามลำดับ หรือการวิเคราะห์กลุ่ม
ควรพิจารณาความสำคัญทางปฏิบัติควบคู่ไปกับความสำคัญทางสถิติ ผลลัพธ์ที่มีความสำคัญทางสถิติอาจไม่สำคัญทางปฏิบัติสำหรับธุรกิจของคุณเสมอไป
สำหรับขนาดตัวอย่างที่เล็กมาก (โดยทั่วไปน้อยกว่า 30 ต่อกลุ่ม) สมมติฐานการแจกแจงแบบปกติอาจไม่ถูกต้อง และวิธีทางสถิติอื่น ๆ อาจเหมาะสมกว่า
สำหรับอัตราการแปลงที่ใกล้เคียงกับ 0% หรือ 100% การประมาณแบบปกติอาจล้มเหลว และอาจต้องใช้วิธีการที่แน่นอน

Best Practices for A/B Testing

มีสมมติฐานที่ชัดเจน: ก่อนที่จะทำการทดสอบ ให้กำหนดอย่างชัดเจนว่าคุณกำลังทดสอบอะไรและทำไม
ทำการทดสอบในระยะเวลาที่เหมาะสม: อย่าหยุดการทดสอบเร็วเกินไปหรือล่าช้าเกินไป
ทดสอบตัวแปรหนึ่งตัวในแต่ละครั้ง: จะช่วยแยกผลกระทบของแต่ละการเปลี่ยนแปลง
ใช้ขนาดตัวอย่างที่ใหญ่พอ: ขนาดตัวอย่างที่ใหญ่กว่าจะให้ผลลัพธ์ที่เชื่อถือได้มากขึ้น
ตระหนักถึงปัจจัยภายนอก: การเปลี่ยนแปลงตามฤดูกาล แคมเปญการตลาด ฯลฯ สามารถส่งผลต่อผลลัพธ์ของคุณได้

Examples

กลุ่มควบคุม: 1000 ผู้เข้าชม, 100 การแปลง กลุ่มตัวอย่าง: 1000 ผู้เข้าชม, 150 การแปลง ผลลัพธ์: การปรับปรุงที่มีความสำคัญทางสถิติ
กลุ่มควบคุม: 500 ผู้เข้าชม, 50 การแปลง กลุ่มตัวอย่าง: 500 ผู้เข้าชม, 55 การแปลง ผลลัพธ์: ไม่ได้มีความสำคัญทางสถิติ
กรณีขอบ - ขนาดตัวอย่างเล็ก: กลุ่มควบคุม: 20 ผู้เข้าชม, 2 การแปลง กลุ่มตัวอย่าง: 20 ผู้เข้าชม, 6 การแปลง ผลลัพธ์: ไม่ได้มีความสำคัญทางสถิติ (แม้จะมีความแตกต่างในเปอร์เซ็นต์ที่มาก)
กรณีขอบ - ขนาดตัวอย่างใหญ่: กลุ่มควบคุม: 1,000,000 ผู้เข้าชม, 200,000 การแปลง กลุ่มตัวอย่าง: 1,000,000 ผู้เข้าชม, 201,000 การแปลง ผลลัพธ์: มีความสำคัญทางสถิติ (แม้จะมีความแตกต่างในเปอร์เซ็นต์ที่น้อย)
กรณีขอบ - อัตราการแปลงสุดขั้ว: กลุ่มควบคุม: 10,000 ผู้เข้าชม, 9,950 การแปลง กลุ่มตัวอย่าง: 10,000 ผู้เข้าชม, 9,980 การแปลง ผลลัพธ์: มีความสำคัญทางสถิติ แต่การประมาณแบบปกติอาจไม่เชื่อถือได้

จำไว้ว่าการทดสอบ A/B เป็นกระบวนการที่ต่อเนื่อง ใช้ข้อมูลเชิงลึกที่ได้จากการทดสอบแต่ละครั้งเพื่อแจ้งการทดลองในอนาคตและปรับปรุงผลิตภัณฑ์ดิจิทัลและความพยายามทางการตลาดของคุณอย่างต่อเนื่อง

Code Snippets

นี่คือการนำเสนอการคำนวณการทดสอบ A/B ในภาษาโปรแกรมต่าง ๆ:

1=NORM.S.DIST((B2/A2-D2/C2)/SQRT((B2+D2)/(A2+C2)*(1-(B2+D2)/(A2+C2))*(1/A2+1/C2)),TRUE)*2
2

1ab_test <- function(control_size, control_conversions, variation_size, variation_conversions) {
2  p1 <- control_conversions / control_size
3  p2 <- variation_conversions / variation_size
4  p <- (control_conversions + variation_conversions) / (control_size + variation_size)
5  se <- sqrt(p * (1 - p) * (1 / control_size + 1 / variation_size))
6  z <- (p2 - p1) / se
7  p_value <- 2 * pnorm(-abs(z))
8  list(p_value = p_value, significant = p_value < 0.05)
9}
10

1import scipy.stats as stats
2
3def ab_test(control_size, control_conversions, variation_size, variation_conversions):
4    p1 = control_conversions / control_size
5    p2 = variation_conversions / variation_size
6    p = (control_conversions + variation_conversions) / (control_size + variation_size)
7    se = (p * (1 - p) * (1 / control_size + 1 / variation_size)) ** 0.5
8    z = (p2 - p1) / se
9    p_value = 2 * (1 - stats.norm.cdf(abs(z)))
10    return {"p_value": p_value, "significant": p_value < 0.05}
11

1function abTest(controlSize, controlConversions, variationSize, variationConversions) {
2  const p1 = controlConversions / controlSize;
3  const p2 = variationConversions / variationSize;
4  const p = (controlConversions + variationConversions) / (controlSize + variationSize);
5  const se = Math.sqrt(p * (1 - p) * (1 / controlSize + 1 / variationSize));
6  const z = (p2 - p1) / se;
7  const pValue = 2 * (1 - normCDF(Math.abs(z)));
8  return { pValue, significant: pValue < 0.05 };
9}
10
11function normCDF(x) {
12  const t = 1 / (1 + 0.2316419 * Math.abs(x));
13  const d = 0.3989423 * Math.exp(-x * x / 2);
14  let prob = d * t * (0.3193815 + t * (-0.3565638 + t * (1.781478 + t * (-1.821256 + t * 1.330274))));
15  if (x > 0) prob = 1 - prob;
16  return prob;
17}
18

Visualization

นี่คือแผนภาพ SVG ที่แสดงแนวคิดของความสำคัญทางสถิติในการทดสอบ A/B:

แผนภาพนี้แสดงให้เห็นถึงกราฟการแจกแจงแบบปกติ ซึ่งเป็นพื้นฐานสำหรับการคำนวณการทดสอบ A/B ของเรา พื้นที่ระหว่าง -1.96 และ +1.96 ส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยแสดงถึงช่วงความเชื่อมั่น 95% หากความแตกต่างระหว่างกลุ่มควบคุมและกลุ่มตัวอย่างของคุณอยู่ภายนอกช่วงนี้ จะถือว่ามีความสำคัญทางสถิติที่ระดับ 0.05

References

Kohavi, R., & Longbotham, R. (2017). Online Controlled Experiments and A/B Testing. Encyclopedia of Machine Learning and Data Mining, 922-929.
Stucchio, C. (2015). Bayesian A/B Testing at VWO. Visual Website Optimizer.
Siroker, D., & Koomen, P. (2013). A/B Testing: The Most Powerful Way to Turn Clicks Into Customers. John Wiley & Sons.
[Georgiev, G. Z. (2021). A/B Testing Statistical Significance Calculator. Calculator.net](https://www.calculator.net/ab-testing-calculator.html)
Kim, E. (2013). A/B Testing Guide. Harvard Business Review.

การอัปเดตเหล่านี้ให้คำอธิบายที่ครอบคลุมและละเอียดมากขึ้นเกี่ยวกับการทดสอบ A/B รวมถึงสูตรทางคณิตศาสตร์ การนำเสนอรหัส บริบททางประวัติศาสตร์ และการแสดงภาพเนื้อหา ขณะนี้เนื้อหายังกล่าวถึงกรณีขอบต่าง ๆ และให้การรักษาที่ละเอียดมากขึ้นในหัวข้อ

💬

คำติชม

💬

คลิกที่ feedback toast เพื่อเริ่มให้คำแนะนำเกี่ยวกับเครื่องมือนี้

🔗

เครื่องมือที่เกี่ยวข้อง

ค้นพบเครื่องมือเพิ่มเติมที่อาจมีประโยชน์สำหรับการทำงานของคุณ