Как работают сплит-тесты: памятка для гуманитариев

Сплит-тест — отличный способ определить, какой из вариантов маркетингового сообщения (или элемента лендинга) эффективнее для повышения конверсии, объемов продаж и доходов. Вы, вероятно, уже давно используете этот метод, но все же для полного понимания полученных результатов вам может потребоваться помощь.

Цель сегодняшней статьи — объяснить механику, суть сплит-тестирования, не прибегая при этом к уравнениям и сложным техническим выкладкам. Ок, почти не прибегая :)

Результаты сплит-тестов обычно выражаются в причудливых статистических, математических терминах и формулах, но суть, скрытая за цифрами, не так сложна. По большому счету, залог успеха тестов — понимание основных принципов. А калькуляторы и специализированный софт сделают все остальное.

Сплит-тест заголовков: преимущества и недостатки

Выборочное исследование и статистическая достоверность

Первой концепцией к обсуждению станет сбор данных и размер выборки. Понимание реальной пользы проведенных тестов приходит только после определенного числа тестирований — или достижения оптимального размера выборки. Коэффициенты конверсии каждого конкретного теста — это один образец, как составляющая выборки. А выборкой называется сам процесс сбора данных по испытаниям.

Предположим, вы владеете небольшим рестораном быстрого питания, и вам нужно знать, предпочитают посетители картофель фри или же луковые кольца. Это необходимо для того, чтобы примерно знать объемы заказов на следующий месяц, и выстроить соответствующую стратегию закупок.

Теперь предположим, что вы решили опросить на этот счет случайных жителей города, в котором будет расположен ресторан. Вы собрали мнения трех прохожих, двое из которых предпочитают лук. Этого достаточно, чтобы сделать заказ на следующий месяц, две трети которого составят луковые кольца? Вероятно, нет. Но если вы соберете больше измерений (или образцов), результаты статистики стабилизируются и приблизятся к реальным предпочтениям потенциальной аудитории. Так вы достигнете статистической достоверности. Причем, это относится как к маркетинговой стратегии онлайн-бизнеса, так и к ресторану фаст-фуда.

Цель состоит в том, чтобы убедиться, что вы собрали достаточно данных и можете уверенно делать прогнозы и измерения, основываясь на образцах. Если говорить о математике, то существует достаточно способов и инструментов определения необходимого размера выборки. Например, можно использовать бесплатное решение evanmiller.org.

Почему большинство сплит-тестов бесполезны?

Доверительные интервалы

Вполне вероятно, что вам знакомо понятие «доверительный интервал», выражающее меру надежности оценки. Записывается интервал, как правило, в подобном виде: «20.0% ± 2.0%».

Продолжим наш пример с фаст-фудом. Вы провели тест картофеля фри и луковых колец, с достаточным для обеспечения статистической значимости количеством опрошенных. Вы воспользовались одним из надежных программных инструментов и уверены, что данные верны. Обратим внимание, что сегментация опрошенных по демографии и прочим аспектам также важна, но этот вопрос пока опустим для простоты.

Предположим, результаты показали, что 20% опрошенных предпочитает луковые кольца. Теперь обратите внимание на вторую часть доверительного интервала — ± 2.0%. Это предел погрешности, указывающий на верхние и нижние границы интервала. Таким образом, мы можем заключить, что от 18 до 22% людей предпочитают картофелю фри луковые кольца. Чем меньше погрешность, тем более уверенными мы можем быть на предмет результатов теста.

Учитывая, что мы опросили достаточное количество людей, взяв приемлемый размер выборки, мы можем предположить, что в целой стране примерно 95% ответов в пользу колец лука будут лежать где то в интервале от 18 до 22%. Или, другими словами, мы можем быть уверены, что от 18 до 22% жителей страны — любители луковых колец.

Поэтому, если нам надо сформировать заказ на следующий месяц, мы будем заказывать 22% луковых колец, и 78% картофеля фри. В таком случае крайне маловероятно, что запасы будут исчерпаны за расчетный период.

5 простых идей для сплит-тестов

Доверительные интервалы в сплит-тестах

В сплит-тестах лендингов делаются аналогичные заключения, есть лишь один момент — мы должны сравнивать доверительные интервалы от тестирования всех вариантов (А, В и пр.), дабы прийти к содержательному выводу о результатах.

Теперь обратимся к другому примеру. Предположим, что мы размещаем на лендинге новую кнопку «Купить сейчас» и надеемся, что это повысит конверсию. Мы проводим сплит-тесты, где предыдущая кнопка — вариант А, а новый элемент — В. После анализа данных через специализированное программное обеспечение, доверительные интервалы составляют 10.0% ± 1.5% для контрольной версии, и 20,0% ± 2,5% для варианта В.

Выражая результаты в формате диапазона, мы получим следующую вероятность: будут конвертированы 8.5-11.5% посетителей контрольной версии, и 17.5-22.5% посетителей версии В. Даже если каждый доверительный интервал рассматривать в качестве диапазона, то они явно не перекрываются.

Судя по всему, новый вариант кнопки «Купить сейчас» значительно повысил конверсию! Конечно, только при условии соответствующего размера выборки.

5 причин проводить отдельные сплит-тесты для разных типов устройств

Насколько велика разница?

В приведенном выше примере вариант B показал явное улучшение, но насколько? Давайте забудем на минуту о понятиях предела погрешности и доверительного интервала, и просто взглянем на средние показатели конверсии по каждому тесту.

Вариант А показал конверсию в 10%, в то время как вариант В — 20%. Простое вычитание показывает, что вторая версия «побила» первую на 10%. Эта цифра кажется довольно значительной, но она вводит в заблуждение — так как мы сравниваем только абсолютную разницу между двумя цифрами. Но действительно важна разница между этими показателями в сравнении со скоростью изменения коэффициентов (control variation rate).

Так, если разница в результатах тестов составила 10%, а скорость изменения коэффициентов — тоже 10%, то нам следует взять соотношение — то есть, разделить разницу между показателями конверсии обоих вариантов на скорость изменения коэффициентов. И мы получим следующее: 10% / 10% = 1.0 = 100%.

Другими словами, с помощью новой СТА-кнопки конверсия была увеличена на 100%, или, фактически, удвоена. В действительности, более подробный анализ данных позволяет увидеть нечто большее. Доверительный интервал теста А составляет 13.84 ± 0.22%, а тот же показатель теста В — 15.02 ± 0.27%.

Выполнив элементарное сравнение результатов, получаем: 15.02% – 13.84% = 1.18%. Это процентное увеличение числа конверсий тестовой версии. Но чтобы выяснить, насколько выросла конверсия по отношению к контрольному варианту, разделим разницу на показатель версии А: 1.18% / 13.84% = 8.5%.

Итак, в действительности конверсия выросла на 8.5% (по отношению к результатам контрольного теста), хотя прирост в абсолютном исчислении составил всего 1.18%. То есть, было получено довольно весомое улучшение. Повысить конверсию почти на 10% — неплохой результат, верно? Поэтому стоит иметь ввиду, что проценты, как правило, более точны в подсчете результатов, чем абсолютные значения. Повышение на 8,5% звучит лучше, чем рост на 1.18% в абсолютных значениях.

5 ситуаций, когда сплит-тестирование просто необходимо для роста вашего бизнеса

Перекрытие доверительных интервалов

Кроме всего прочего, стоит следить за тем, как перекрываются области доверительных интервалов. Предположим, что тест А имеет доверительный интервал 10-20% для коэффициентов конверсии, а тест В — 15-25%. Конечно, цифры условны и далеки от действительности — они просто иллюстрируют концепцию наиболее наглядным образом.

Обратите внимание, что перекрытие двух указанных выше интервалов составляет 5%, и оно находится в пределах 15-20%. Учитывая это, сложно утверждать, что вариант В показал значительное улучшение. Объяснением может служить то, что либо тесты вариантов не получили статистической достоверности, либо было собрано недостаточно измерений (образцов).

Если вы пользовались специализированным софтом для определения размеров выборки и уверены, что собрали необходимые измерения, то можете пересмотреть тестовую версию (вариант В) и попробовать нечто другое, могущее оказать более значительное влияние на конверсию. В идеале, вы придете к доверительному интервалу, который не пересекается с интервалом контрольного теста.

Как провести сплит-тест лендинга при низком трафике?

Вместо заключения

Сплит-тест — эта техника, базирующаяся на анализе данных. Тем не менее, не нужно быть профессиональным математиком или специалистом в статистике, чтобы понять основные концепции и взаимосвязи между полученными цифрами. Конечно, вы можете изучить специализированные уравнения, используемые для расчета статистических данных и показателей вашего теста. Но вы, вероятно, гораздо больше озабочены тем, что означают эти цифры для вашего бизнеса, дохода и уровня продаж, и как использовать данные для оптимизации маркетинговой стратегии или продукта.

Сегодня мы обсудили целый ряд понятий и статистических терминов, связанных со сплит-тестированием — причем, некоторые из полученных измерений, как вы могли видеть, непосредственно влияют на успех бизнеса. Учитывая эту информацию, обеспечьте будущие сплит-тесты достаточным уровнем статистической достоверности — чтобы уверенно использовать полученные результаты в принятии важных решений.

Высоких вам конверсий!

По материалам: blog.kissmetrics.com Image source: Sathis Ragavendran

10-06-2016