Whiz Tools

מחשבון A/B

מחשבון A/B

מחשבון A/B

מבוא

מבחני A/B הם שיטה חשובה בשיווק דיגיטלי, פיתוח מוצרים ואופטימיזציה של חוויית משתמש. זה כולל השוואה בין שתי גרסאות של דף אינטרנט או אפליקציה זו מול זו כדי לקבוע איזו מהן פועלת טוב יותר. מחשבון A/B שלנו עוזר לך לקבוע את המשמעות הסטטיסטית של תוצאות המבחן שלך, ומבטיח שאתה מקבל החלטות מבוססות נתונים.

נוסחה

מחשבון מבחן A/B משתמש בשיטות סטטיסטיות כדי לקבוע אם ההבדל בין שתי קבוצות (ביקורת ושינוי) הוא משמעותי. הליבה של חישוב זה כוללת חישוב ציון z וערך p המתאים לו.

  1. חשב את שיעורי ההמרה עבור כל קבוצה:

    p1=x1n1p_1 = \frac{x_1}{n_1} ו-p2=x2n2p_2 = \frac{x_2}{n_2}

    היכן:

    • p1p_1 ו-p2p_2 הם שיעורי ההמרה עבור קבוצות הביקורת והשינוי
    • x1x_1 ו-x2x_2 הם מספר ההמרות
    • n1n_1 ו-n2n_2 הם המספר הכולל של מבקרים
  2. חשב את הפרופורציה המשותפת:

    p=x1+x2n1+n2p = \frac{x_1 + x_2}{n_1 + n_2}

  3. חשב את השגיאה הסטנדרטית:

    SE=p(1p)(1n1+1n2)SE = \sqrt{p(1-p)(\frac{1}{n_1} + \frac{1}{n_2})}

  4. חשב את ציון z:

    z=p2p1SEz = \frac{p_2 - p_1}{SE}

  5. חשב את ערך p:

    ערך p מחושב באמצעות פונקציית הצטברות של התפלגות נורמלית סטנדרטית. ברוב שפות התכנות, זה נעשה באמצעות פונקציות מובנות.

  6. קבע משמעות סטטיסטית:

    אם ערך p קטן מרמת המשמעות שנבחרה (בדרך כלל 0.05), התוצאה נחשבת למשמעותית סטטיסטית.

חשוב לציין ששיטה זו מניחה התפלגות נורמלית, שהיא בדרך כלל תקפה עבור גדלי דגימה גדולים. עבור גדלי דגימה קטנים מאוד או שיעורי המרה קיצוניים, ייתכן שיהיה צורך בשיטות סטטיסטיות מתקדמות יותר.

שימושים

מבחני A/B יש להם מגוון רחב של יישומים בתעשיות שונות:

  1. מסחר אלקטרוני: בדיקת תיאורי מוצרים שונים, תמונות או אסטרטגיות תמחור כדי להגדיל מכירות.
  2. שיווק דיגיטלי: השוואת כותרות מייל, תוכן פרסום או עיצובים של דפי נחיתה כדי לשפר שיעורי קליקים.
  3. פיתוח תוכנה: בדיקת עיצובים שונים של ממשק משתמש או מימושים של תכונות כדי לשפר את המעורבות של המשתמשים.
  4. יצירת תוכן: הערכת כותרות שונות או פורמטים של תוכן כדי להגדיל את קריאת התוכן או שיתופו.
  5. בריאות: השוואת היעילות של פרוטוקולי טיפול שונים או שיטות תקשורת עם מטופלים.

חלופות

בעוד שמבחני A/B נפוצים, ישנן שיטות חלופיות לבדיקה והשוואה:

  1. בדיקות רב-משתנים: בודקות מספר משתנים בו זמנית, ומאפשרות השוואות מורכבות יותר אך דורשות גדלי דגימה גדולים יותר.
  2. אלגוריתמים של בנדיט: מקצים דינמית תנועה לגרסאות המוצלחות יותר, אופטימיזציה של תוצאות בזמן אמת.
  3. מבחני A/B בייסיאניים: משתמשים בהסקה בייסיאנית כדי לעדכן באופן רציף את הסבירות ככל שנאספים נתונים, ומספקים תוצאות מדויקות יותר.
  4. ניתוח קוהורט: משווה את ההתנהגות של קבוצות משתמשים שונות לאורך זמן, שימושי להבנת השפעות ארוכות טווח.

היסטוריה

המושג של מבחני A/B יש לו שורשים במחקר חקלאי ורפואי מהמאות המוקדמות של המאה ה-20. סר רונלד פישר, סטטיסטיקאי בריטי, חינך את השימוש בניסויים מבוקרים רנדומליים בשנות ה-20, והניח את היסודות למבחני A/B המודרניים.

בעולם הדיגיטלי, מבחני A/B צברו פופולריות בסוף שנות ה-90 ותחילת שנות ה-2000 עם עליית המסחר האלקטרוני והשיווק הדיגיטלי. השימוש של גוגל במבחני A/B כדי לקבוע את מספר התוצאות האופטימלי להציג (2000) והשימוש הנרחב של אמזון בשיטה זו לאופטימיזציה של אתרים נחשבים לרגעים מכריעים בפופולריזציה של מבחני A/B דיגיטליים.

השיטות הסטטיסטיות המשמשות במבחני A/B התפתחו עם הזמן, כאשר מבחנים מוקדמים הסתמכו על השוואות פשוטות של שיעורי המרה. הכנסת טכניקות סטטיסטיות מתקדמות יותר, כמו השימוש בציוני z וערכי p, שיפרה את הדיוק והאמינות של תוצאות מבחני A/B.

היום, מבחני A/B הם חלק אינטגרלי מקבלת החלטות מבוססת נתונים בתעשיות רבות, עם מספר כלים ופלטפורמות זמינות כדי להקל על התהליך.

כיצד להשתמש במחשבון זה

  1. הזן את מספר המבקרים (גודל) עבור קבוצת הביקורת שלך.
  2. הזן את מספר ההמרות עבור קבוצת הביקורת שלך.
  3. הזן את מספר המבקרים (גודל) עבור קבוצת השינוי שלך.
  4. הזן את מספר ההמרות עבור קבוצת השינוי שלך.
  5. המחשבון יחיש את התוצאות אוטומטית.

מה התוצאות אומרות

  • ערך p: זו ההסתברות שההבדל בשיעורי ההמרה בין קבוצות הביקורת והשינוי שלך התרחש במקרה. ערך p נמוך יותר מצביע על ראיות חזקות יותר נגד ההשערה האפסית (שאין הבדל אמיתי בין הקבוצות).
  • הבדל בשיעור ההמרה: זה מראה כמה טוב (או רע) קבוצת השינוי שלך פועלת בהשוואה לקבוצת הביקורת, בנקודות אחוז.
  • משמעות סטטיסטית: באופן כללי, תוצאה נחשבת למשמעותית סטטיסטית אם ערך p קטן מ-0.05 (5%). מחשבון זה משתמש בסף זה כדי לקבוע משמעות.

פרשנות התוצאות

  • אם התוצאה היא "משמעותית סטטיסטית", זה אומר שאתה יכול להיות בטוח (עם 95% ודאות) שההבדל הנצפה בין קבוצות הביקורת והשינוי שלך הוא אמיתי ולא נגרם על ידי מזל.
  • אם התוצאה היא "לא משמעותית סטטיסטית", זה אומר שאין מספיק ראיות כדי להסיק שיש הבדל אמיתי בין הקבוצות. ייתכן שתצטרך להריץ את המבחן זמן רב יותר או עם יותר משתתפים.

מגבלות ושיקולים

  • מחשבון זה מניח התפלגות נורמלית ומשתמש במבחן z דו-צדדי לחישוב.
  • הוא לא מתחשב בגורמים כמו בדיקות מרובות, בדיקות רציפות או ניתוח קטעים.
  • תמיד שקול משמעות מעשית לצד משמעות סטטיסטית. תוצאה משמעותית סטטיסטית עשויה לא להיות תמיד חשובה מעשית לעסק שלך.
  • עבור גדלי דגימה קטנים מאוד (בדרך כלל פחות מ-30 לכל קבוצה), ההנחה של התפלגות נורמלית עשויה לא להתקיים, ושיטות סטטיסטיות אחרות עשויות להיות מתאימות יותר.
  • עבור שיעורי המרה הקרובים מאוד ל-0% או 100%, ההנחה של נורמליות עשויה להיכשל, וייתכן שיהיה צורך בשיטות מדויקות.

שיטות עבודה מומלצות למבחני A/B

  1. היה עם השערה ברורה: לפני הרצת מבחן, הגדר בבירור מה אתה בודק ולמה.
  2. הרץ מבחנים במשך משך זמן מתאים: אל תפסיק מבחנים מוקדם מדי או תן להם לרוץ יותר מדי זמן.
  3. בדוק משתנה אחד בכל פעם: זה עוזר לבודד את השפעת כל שינוי.
  4. השתמש בגודל דגימה מספיק גדול: גדלי דגימה גדולים יותר מספקים תוצאות מהימנות יותר.
  5. היה מודע לגורמים חיצוניים: שינויים עונתיים, קמפיינים שיווקיים וכו' יכולים להשפיע על התוצאות שלך.

דוגמאות

  1. קבוצת ביקורת: 1000 מבקרים, 100 המרות קבוצת שינוי: 1000 מבקרים, 150 המרות תוצאה: שיפור משמעותי סטטיסטית

  2. קבוצת ביקורת: 500 מבקרים, 50 המרות קבוצת שינוי: 500 מבקרים, 55 המרות תוצאה: לא משמעותית סטטיסטית

  3. מקרה קצה - גודל דגימה קטן: קבוצת ביקורת: 20 מבקרים, 2 המרות קבוצת שינוי: 20 מבקרים, 6 המרות תוצאה: לא משמעותית סטטיסטית (למרות הבדל אחוזי גדול)

  4. מקרה קצה - גודל דגימה גדול: קבוצת ביקורת: 1,000,000 מבקרים, 200,000 המרות קבוצת שינוי: 1,000,000 מבקרים, 201,000 המרות תוצאה: משמעותית סטטיסטית (למרות הבדל אחוזי קטן)

  5. מקרה קצה - שיעורי המרה קיצוניים: קבוצת ביקורת: 10,000 מבקרים, 9,950 המרות קבוצת שינוי: 10,000 מבקרים, 9,980 המרות תוצאה: משמעותית סטטיסטית, אך ההנחה של נורמליות עשויה לא להיות מהימנה

זכור, מבחני A/B הם תהליך מתמשך. השתמש בתובנות שהושגו מכל מבחן כדי ליידע את הניסויים העתידיים שלך ולשפר באופן מתמשך את המוצרים הדיגיטליים שלך ואת מאמצי השיווק.

קטעי קוד

הנה יישומים של חישוב מבחן A/B בשפות תכנות שונות:

=NORM.S.DIST((B2/A2-D2/C2)/SQRT((B2+D2)/(A2+C2)*(1-(B2+D2)/(A2+C2))*(1/A2+1/C2)),TRUE)*2
ab_test <- function(control_size, control_conversions, variation_size, variation_conversions) {
  p1 <- control_conversions / control_size
  p2 <- variation_conversions / variation_size
  p <- (control_conversions + variation_conversions) / (control_size + variation_size)
  se <- sqrt(p * (1 - p) * (1 / control_size + 1 / variation_size))
  z <- (p2 - p1) / se
  p_value <- 2 * pnorm(-abs(z))
  list(p_value = p_value, significant = p_value < 0.05)
}
import scipy.stats as stats

def ab_test(control_size, control_conversions, variation_size, variation_conversions):
    p1 = control_conversions / control_size
    p2 = variation_conversions / variation_size
    p = (control_conversions + variation_conversions) / (control_size + variation_size)
    se = (p * (1 - p) * (1 / control_size + 1 / variation_size)) ** 0.5
    z = (p2 - p1) / se
    p_value = 2 * (1 - stats.norm.cdf(abs(z)))
    return {"p_value": p_value, "significant": p_value < 0.05}
function abTest(controlSize, controlConversions, variationSize, variationConversions) {
  const p1 = controlConversions / controlSize;
  const p2 = variationConversions / variationSize;
  const p = (controlConversions + variationConversions) / (controlSize + variationSize);
  const se = Math.sqrt(p * (1 - p) * (1 / controlSize + 1 / variationSize));
  const z = (p2 - p1) / se;
  const pValue = 2 * (1 - normCDF(Math.abs(z)));
  return { pValue, significant: pValue < 0.05 };
}

function normCDF(x) {
  const t = 1 / (1 + 0.2316419 * Math.abs(x));
  const d = 0.3989423 * Math.exp(-x * x / 2);
  let prob = d * t * (0.3193815 + t * (-0.3565638 + t * (1.781478 + t * (-1.821256 + t * 1.330274))));
  if (x > 0) prob = 1 - prob;
  return prob;
}

ויזואליזציה

הנה דיאגרמת SVG הממחישה את המושג של משמעות סטטיסטית במבחני A/B:

ממוצע -1.96σ +1.96σ התפלגות נורמלית רמת ביטחון 95% רמת ביטחון 95%

דיאגרמה זו מציגה עקומת התפלגות נורמלית, שהיא הבסיס לחישובי מבחן A/B שלנו. השטח בין -1.96 ל +1.96 סטיות תקן מהממוצע מייצג את רמת הביטחון של 95%. אם ההבדל בין קבוצות הביקורת והשינוי שלך נופל מחוץ לטווח זה, הוא נחשב למשמעותי סטטיסטית ברמת 0.05.

הפניות

  1. Kohavi, R., & Longbotham, R. (2017). ניסויים מבוקרים באינטרנט ומבחני A/B. אנציקלופדיה של למידת מכונה ודוגמנות נתונים, 922-929.
  2. Stucchio, C. (2015). מבחני A/B ב-VWO. Visual Website Optimizer.
  3. Siroker, D., & Koomen, P. (2013). מבחני A/B: הדרך החזקה ביותר להפוך קליקים ללקוחות. John Wiley & Sons.
  4. [Georgiev, G. Z. (2021). מחשבון משמעות סטטיסטית למבחני A/B. Calculator.net](https://www.calculator.net/ab-testing-calculator.html)
  5. Kim, E. (2013). מדריך מבחני A/B. Harvard Business Review.

עדכונים אלה מספקים הסבר מקיף ומפורט יותר על מבחני A/B, כולל הנוסחאות המתמטיות, יישומי הקוד, הקשר ההיסטורי והייצוג החזותי. התוכן כעת מתייחס למגוון מקרים קצה ומספק טיפול מעמיק יותר בנושא.

משוב