Ошибки I и II типа во время сплит-тестирования

Сплит-тестирование представляет собой случайное распределение входящего трафика сайта между разными вариантами одной целевой страницы, чтобы определить, какой вариант положительно влияет на ключевые показатели.

Довольно просто, не так ли? И да, и нет.

Хотя проведение сплит-тестов может казаться простым, статистика и математика, лежащие в основе как самого процесса, так и подсчета его результатов, могут быть довольно сложными.

Статистика — это краеугольный камень сплит-тестирования, а она, в свою очередь, основана на вычислении вероятностей. Вы никогда не можете быть уверены на 100% в точности полученных результатов или снизить риск ошибки до 0%. Вы лишь можете увеличить вероятность того, что результат теста окажется верным.

Однако даже после выполнения всех рекомендаций ваши отчеты о результатах тестирования могут быть искажены некоторыми ошибками, которые не так уж и редки. Обычно известные как ошибки I и II типов, они по существу приводят к неправильным итогам теста или ошибочному выбору варианта-победителя. Это ведет к неверной интерпретации отчетов о результатах тестирования, что в конечном итоге плохо влияет на конверсию и может стоить вам продаж и даже дохода.

Ниже вы найдете информацию о том, что именно подразумевается под ошибками I и II типа , каковы их последствия и как их избежать.

Содержание

Ошибки I типа

Как избежать возникновения ошибок I типа

Ошибки II типа

Как избежать возникновения ошибок II типа

Заключение

Ошибки I типа

Ошибки первого типа также известны как альфа (α) ошибки или ложные срабатывания.

В случае ошибки I типа ваш тест кажется успешным, и вариант-победитель, похоже, действительно оказывает влияние на те цели, которые вы определили перед началом тестирования. Однако подъем или падение, на самом деле, только временное — эффект остановится, если вы начнете применять победившую версию повсеместно и будете оценивать ее влияние в течение значительного периода времени. Это происходит в тех случаях, когда вы завершаете тестирование, не собрав нужного объема статистических данных или не достигнув заранее определенных критериев, а также поспешите отвергнуть свою нулевую гипотезу и принять выигрышный вариант.

Нулевая гипотеза представляет собой утверждение о том, что внесенное изменение не будет иметь влияние на какой-либо конкретный показатель или цель. В случае ошибок типа I нулевая гипотеза верна, но отклоняется из-за несвоевременного завершения тестов или ошибки в расчете критериев.

Вероятность совершения ошибки I типа обозначается буквой «α». Ошибка типа I коррелирует с уровнем уверенности, на котором вы решили завершить тест. Это означает, что если вы решите завершить свой тест с уровнем достоверности 95%, вы соглашаетесь с 5% вероятностью того, что результат вашего теста неверен. Точно так же, если этот уровень достоверности составляет 99%, вероятность ошибочного результата теста составляет 1%. Вы могли бы назвать это чистой неудачей, но если вы столкнетесь с ошибкой α даже после завершения теста с уровнем достоверности 95%, это означает, что произошло событие с вероятностью всего 5%.

Предположим, вы выдвигаете гипотезу о том, что перемещение кнопки призыва к действию на лендинге в верхнюю часть страницы приведет к увеличению количества регистраций. Нулевая гипотеза здесь заключается в том, что изменение положения CTA не повлияет на количество полученных регистраций. Как только тест начнется, у вас возникнет соблазн взглянуть на результаты, и вы заметите колоссальный рост регистраций на 45%, вызванный, как вам кажется, внесенным изменением. Вы начнете убеждать себя в том, что этот вариант значительно лучше, и в итоге завершите тест, отклонив нулевую гипотезу и применив победивший вариант повсеместно. Однако спустя некоторое время вы заметите, что он больше не оказывает аналогичного воздействия на количество регистраций. Это будет означать, что результаты вашего тестирования были искажены из-за ошибки I типа.

Как избежать возникновения ошибок I типа

Невозможно полностью избавиться от ошибок I типа, но вы, безусловно, можете уменьшить вероятность их возникновения. Для этого убедитесь, что вы завершили свои тесты только после того, как они достигли достаточно высокого уровня достоверности. Уровень уверенности 95% считается идеальным — это то, к чему вы должны стремиться. Но даже после достижения уровня достоверности 95% результаты вашего теста могут быть неверными из-за ошибки типа I. Следовательно, вам также необходимо убедиться в том, что ваше сплит-тестирование длится достаточно долго, чтобы был протестирован хороший размер выборки: тем самым вы повысите доверие к результатам ваших тестов.

Для определения идеальной длительности конкретного теста, можно использовать специальные калькуляторы, например, этот от IdeaRocket.

Ошибки II типа

Их также называют бета (β) ошибками или ложноотрицательными результатами. В случае ошибок типа II конкретный тест кажется неубедительным или неудачным, а нулевая гипотеза кажется верной. По факту, изменение действительно привело к влиянию на желаемую цель, но результаты этого не показывают, и доказательства говорят в пользу нулевой гипотезы. Таким образом, вы в конечном итоге (ошибочно) принимаете нулевую гипотезу и отвергаете свое предположение.

Ошибки типа II обычно приводят к отказу от тестов и разочарованию, а в худшем случае — к отсутствию мотивации следовать по пути оптимизации конверсии.

Вероятность не нарваться на ошибку типа II обозначается 1 — β и зависит от статистической мощности теста. Чем выше статистическая мощность вашего теста, тем ниже вероятность возникновения ошибки типа II. Если вы проводите тест со статистической мощностью 90%, вероятность получения ложноотрицательного результата составляет всего 10%.

Статистическая мощность теста зависит от порога статистической значимости, размера выборки, минимального размера интересующего эффекта и даже количества исследуемых вариантов.

Вот, как они связаны:

Тестируемые параметры	Влияние на статистическую мощность (зависимость)
Минимальный размер интересующего эффекта	Прямая
Статистическая значимость	Обратная
Размер выборки	Прямая
Количество исследуемых вариантов	Обратная

Предположим, вы выдвинули гипотезу о том, что добавление значка «Безопасная оплата» на страницу оплаты поможет вам снизить процент отказов на этом этапе. Вы создаете вариант платежной страницы со значками «Безопасная оплата» и запускаете тестирование, чтобы посмотреть результаты через 10 дней после его начала. Заметив отсутствие изменений в количестве конверсий, вы решаете завершить тест и объявить нулевую гипотезу истинной. Либо, не убедившись в результатах теста, вы решаете перезапустить тест — только на этот раз вы увеличиваете его продолжительность. И высока вероятность, что на этот раз вы заметите значительное изменение. Таким образом, в первый раз вы столкнулись с ошибкой типа II, завершив тест до того, как нужно было проверить требуемый размер выборки.

Как избежать возникновения ошибок II типа

Ясно, что ошибок II типа можно избежать, повысив статистическую мощность ваших тестов. Это можно сделать, увеличив размер выборки и уменьшив количество вариантов. Также имейте в виду, что повышение статистической мощности для уменьшения вероятности ошибок II типа также может быть осуществлено за счет уменьшения порога статистической значимости и, как следствие, увеличения вероятности ошибок I типа. Однако, поскольку снижение вероятности ошибок II типа обычно имеет приоритет над предотвращением ошибок I типа (поскольку его последствия могут быть более серьезными), рекомендуется не вмешиваться в порог статистической значимости ради повышения мощности.

Graphical Representation Of Type I And Type II Errors

Заключение

Для успешного сплит-тестирования нет нужды излишние сосредотачиваться на статистике. Ваша цель не состоит в том, чтобы найти абсолютную истину при помощи экспериментов. Ваша задача — принять лучшее бизнес-решение, которое поможет вам увеличить прибыль.

Вы не можете полностью исключить вероятность искажения результатов ваших тестов из-за непредвиденной ошибки, так как стремиться к абсолютной достоверности со статистикой чрезвычайно сложно.

Высоких вам конверсий!

По материалам: vwo.com, Изображение: freepik.com

17-05-2021