Почему в 95% статистической значимости нет ничего особенного

Золотой стандарт в сфере оптимизации конверсии заключается в том, чтобы дождаться выполнения двух условий до завершения сплит-теста:

Получить репрезентативную выборку.
Победитель тестирования может быть объявлен с вероятностью 95% или больше.

Так почему же Джефф Безос (Jeff Bezos) пишет следующее в своем ежегодном письме акционерам?

«Большинство решений, вероятно, должны основываться примерно на 70% информации, которую вы рассчитываете получить. Если вы ждете 90%, то скорее всего, действуете слишком медленно».

Заметьте, что он не излагает какой-то непогрешимый закон, так как говорит «большинство решений». Но все же, что за динамику он описывает?

Это стоимость упущенной возможности (opportunity cost). Отказ от использования имеющихся у вас данных и ожидание большей вероятности имеет свою цену, но тем не менее, мы редко прилагаем должные усилия для расчета этих издержек и их сравнения с потенциальной прибылью от продолжительного тестирования.

Содержание статьи

Гипотетический подход
Что мы теряем за это время?
95% — это просто условность
Когда нужно заканчивать A/B-тест
Как работать с калькулятором
Как проводятся вычисления

Гипотетический подход

Рассмотрим гипотетический пример. Это результаты A/B-теста для лидогенерирующей страницы продукта с высокой стоимостью подписки — возможно, SaaS-компании. Тестирование проводилось в течение двух месяцев.

	A	B
Посетители	1000	1000
Конверсии	100	120

Сейчас есть вероятность 8%, что мы увидели бы эти или более высокие результаты в пользу варианта B, если бы B уступал или равнялся A. Давайте посмотрим на приближение того, как кривые вероятности выглядят в такой ситуации.

Коэффициент конверсии

Если мы продлим тест и предположим, что данные будут и дальше поступать в таких же пропорциях, для достижения статистической значимости потребуется около 3 недель.

Что мы теряем за это время?

Если прекратить тестирование сегодня, тогда мы бы получили прирост, который дал бы нам в среднем на 2% более высокую конверсию — за исключением того, что половина посетителей уже видят вариант B, поэтому здесь результат, вероятно, будет ближе к 1%. Как бы там ни было, в абсолютном выражении мы бы все равно получили примерно на 7-8 лидов больше, чем в случае с 3 неделями ожидания — а для команды по продажам такие цифры наверняка имели бы значение.

Разумеется, есть также и 8%-ная вероятность, что вариант A окажется лучшим. Однако наряду с тем, что 8% представляют собой всего лишь 1 шанс из 12, взгляните, куда попадает розовая область на приведенном выше графике. Величина потенциального убытка в 8% случаев — самый большой разрыв между лидирующим A и проигрывающим B — равна примерно 2%, тогда как потенциальная прибыль в 92% случаев — самый большой разрыв между лидирующим B и проигрывающим A — составляет около 6%. Если учесть влияние этих результатов, вероятностная ценность выбора B возрастает.

Хотя это и может казаться очевидным, стоит отметить, что ждать значимости — не то же самое, что и ждать вероятности. И спустя 3 недели у нас все так же останется 5%-ный шанс сделать неправильный выбор.

95% — это просто условность

Так почему же заветные 95% стали стандартом для статистической значимости? При нормальной дистрибуции данных 95% — это два стандартных отклонения от среднего (где отклонение является мерой разброса). Помимо этого, в 95% нет ничего особенного — это всего лишь условность.

Разумеется, условность необходима. Кривые вероятности на приведенном выше графике не касаются оси, но стремятся к ней до тех пор, пока не достигнут 0 с одной стороны и максимума — с другой. 95%-ная условность позволяет быстро определить, насколько широко расходятся эти кривые. И еще она упрощает ведение отчетности для ученых: они могут сказать «результаты значимы» или «результаты не значимы», и в какой-то мере это сделает их отчеты понятнее.

Но как ни крути, все «волшебство» 95% ограничивается лишь этими коммуникативными преимуществами.

Когда нужно заканчивать A/B-тест

Во-первых, не забывайте о потребности в репрезентативной выборке. Лучше всего проверяйте тест в тот же день недели, с которого и начинали, чтобы каждая проверка охватывала полный недельный цикл.

Вы можете быть уверенными в двух вещах:

В любом A/B-тестировании, которое проводится в течение длительного времени, отказ от завершения теста и выбора выигрышного варианта по текущим данным влечет за собой издержки: стоимость упущенной возможности.
У преждевременного завершения теста и возможного выбора проигрышного варианта тоже есть своя цена: стоимость ошибки (причем шанс ее допустить есть и при 95%-ной значимости).

Вместо того, чтобы полагаться на несколько произвольный критерий в 95%, старайтесь завершать свои тесты, когда стоимость упущенной возможности начинает превосходить расходы на ошибки.

В сотрудничестве с data-ученым из Санта-Клары, Уэсли Энгерсом (Wesley Engers) компания IdeaRocket создала Excel-документ, который подскажет вам, когда вы достигните этой точки. Его можно загрузить здесь.

Как работать с калькулятором

Ниже указаны исходные параметры, которые вы вносите в калькулятор, а также самые важные результаты.

Исходные данные

Результаты

Количество посетителей для варианта А
Число конверсий для варианта А
Количество посетителей для варианта B
Число конверсий для варианта B
Длительность тестирования в днях
Период амортизации (то есть период, в течение которого вы рассчитываете свои доходы)

Предполагаемый рост от победного варианта
P-значение (P-value)
Превышают ли потенциальные расходы на упущенную возможность потенциальную прибыль?

Первые 5 пунктов в колонке исходных данных вполне понятны, но шестой — может нуждаться в некотором разъяснении.

Чтобы подсчитать расходы на ошибки, необходимо спроецировать их на определенный период времени с начала теста. Это так называемый период амортизации — временной отрезок, в течение которого результаты вашего тестирования скорее всего принесут вам пользу.

Учитывая количество элементов, которые могут измениться на обоих тестируемых вами страницах, и вашу бизнес-ситуацию — обновления линейки продуктов, предпочтения клиентов и т. д. — эксперты рекомендуют устанавливать период амортизации на 534 дня. Если в ближайшие месяцы вы планируете провести полный редизайн своего сайта, этот отрезок следует заметно сократить. Если же у вас намечается более стабильная ситуация, тогда период можно и продлить.

Колонка результатов включает предполагаемый доход от победной на данный момент версии, текущее P-значение и ответ на вопрос: «Превышают ли потенциальные расходы на упущенную возможность потенциальную прибыль?».

Ответ на этот вопрос не должен быть механизмом принятия решений, заменяющим условный критерий 95%. Да, принимать решение лучше, отталкиваясь от ROI, а не от условных правил, но на ваши вложения и прибыль также влияют несколько других аспектов. Вот лишь два из них:

Этот калькулятор учитывает доходы только для данного эксперимента. Если вы планируете проводить другие тесты, которые в перспективе могут принести плоды, продление вашего текущего тестирования отсрочит прибыль от них. Это говорит в пользу более быстрого завершения теста.
С другой стороны, мы часто не подсчитываем расходы на подготовку нового A/B-теста. Если эта модель подталкивает вас к более быстрым итерациям, помните, что ваше время — тоже расход. Это говорит в пользу более медленного экспериментального темпа.

В случае с этой или любой другой методикой принятия решений самый сложный момент наступает тогда, когда тест не дает вам четкого ответа. Если вы собрали обширную выборку, а результаты вариантов все равно слишком неоднозначны — как в плане P-значения, так и по расходам на упущенную возможность/ошибки — лучше всего определитесь с победителем уже на этой стадии и начинайте искать другие возможности для тестирования с потенциально большей прибылью.

Как проводятся вычисления

Ось Y — конверсии, ось X — время: Daily Error Cost — ежедневная стоимость ошибки, Daily Opportunity Cost — ежедневная стоимость упущенной возможности

Первым делом рассчитывается среднее число конверсий, теряемых ежедневно из-за продления теста (ежедневная стоимость упущенной возможности), а также в результате неверного выбора (ежедневная стоимость ошибки). В реальной жизни графики этих метрик колебались бы в ответ на случайные изменения в данных, но если допустить, что информация поступает в одних и тех же пропорциях, линии выглядели бы примерно так.

График ежедневных расходов на ошибку стремится вниз, так как по мере сбора данных статистическая значимость растет, и шансы на просчет уменьшаются. Линия ежедневных затрат на упущенную возможность прямая, потому что, как уже упоминалось, мы допускаем, что результаты не колеблются.

Так как же вычисляются эти метрики? Ежедневная стоимость возможности — это просто разница между числом конверсий победного и проигрышного вариантов, деленная на количество дней проведения теста. Затем полученная цифра делится еще на 2, поскольку половина посетителей уже видит выигрышный вариант.

Ежедневная стоимость ошибки подразумевает более сложные статистические расчеты. Ее можно вычислить, определив, сколько конверсий было бы утрачено, если бы был сделан неверный выбор.

К примеру, если сейчас более высокую конверсию показывает вариант А, а на самом деле лучше конвертирует вариант B, тогда предполагаемое число теряемых конверсий рассчитывается для использования варианта А вместо правильной версии B. Математически это делается путем вычисления разницы в конверсии при допущении о том, что вариант B на самом деле лучше. Мы основываемся на нормальном распределении разницы между конверсиями версий А и B.

Сперва предположим, что PA>PB (где PA — страница A, а PB — страница B) — тогда это предполагаемое значение PA - PB с учетом того, что PA - PB > 0. Это можно рассчитать через интеграл от -1 до 0 из x*π(x), где π(x) — функция плотности нормального распределения со средним PA - PB и стандартным отклонением.

Для расчета смотрите вкладку «Data Value» в Excel-документе

Теперь предположим, что мы добрались до определенного момента в тестировании и планируем завершить его сегодня или завтра. На графике 1 показан случай, когда тест прекращается сегодня. Мы принимаем ежедневную стоимость ошибки на оставшийся период амортизации. На графике 2 показан случай, где тест длится до завтрашнего дня — на этот срок мы принимаем стоимость упущенной возможности, а затем переключаемся на более низкую стоимость ошибки.

График 1

График 2

Обратите внимание на область, появившеюся на рисунке 2, и область, которая здесь пропадает. На приведенном ниже графике это видно более отчетливо.

Решаясь продлить тест, вы добавляете область «а» и теряете область «b».

Если вы убираете больше, чем добавляете — то есть если область «b» охватывает больше, чем область «а» — тогда ваши расходы на ошибки будут превосходить затраты на упущенную возможность. В таком случае есть смысл продолжить эксперимент.

Если же ситуация складывается противоположным образом, и область «а» охватывает больше (или равна), чем область «b», тестирование следует прекратить.

Подсчитать эти отрезки для завтрашнего дня довольно просто. Область «а» вычисляется по такой формуле:

(Ежедневная стоимость ошибки — ежедневная стоимость упущенной возможности) х 1 день, так как речь идет о завтрашнем дне

Область «b» рассчитывается путем проецирования данных на один день вперед, чтобы получить ежедневное снижение стоимости ошибки и умножить его на оставшиеся дни периода амортизации:

Снижение стоимости ошибки х (период амортизации — число дней проведения теста — 1 день)

Когда область «а» больше или равна области «b», расходы на упущенную возможность начинают расти быстрее, чем затраты на ошибку. Именно тогда вам и следует задуматься о завершении теста — дожидаться 95%-ной значимости вовсе необязательно.

Какой бы способ вы ни выбрали, провести тестирование лендингов на платформе LPgenerator очень просто — вам нужно создать копию/копии уже существующей посадочной страницы («Копировать вариант»), указать соотношение распределения трафика («Вес») на каждую из версий, внести изменения и наблюдать за реакцией посетителей: