Как правильно проводить A/B-тесты и быть уверенным в значимости результатов?

Если вы емейл-маркетолог, то понятие сплит-теста вам наверняка знакомо. К A/B-тестированию мы обращаемся, когда нас одолевают сомнения насчет темы, цвета кнопки call-to-action и прочих важных элементов рассылки. Как сработает та или иная версия письма? Какая принесет больше отклика и дохода?

В этой статье мы обсудим, как правильно проводить сплит-тесты и каким результатам можно доверять.

Сплит-тестирование в стандартных письмах

С помощью сплит-теста сравниваются количественные показатели конверсии нескольких версий писем в одном сегменте получателей, и определяется победитель с наибольшим откликом.

Контент писем тестируется по следующим параметрам:

• формулировке темы, прехедера;
• длине или стилю текста;
• виду, величине, цвету шрифтов;
• цветовому оформлению и дизайну;
• оформлению кнопок;
• использованию gif-анимации, видеороликов или статичного изображения;
• использованию динамического контента и персонализации;
• использованию ограничений по времени и тизеров;
• использованию таймеров и статичной картинки;
и другим элементам.

Отклик на письмо часто зависит от дня недели, в который оно отправлено. При этом одна и та же рассылка может активнее открываться в один день, а кликаться и приводить к покупке — в другой. Только эксперименты позволят выявить оптимальные день и час для общения с подписчиками. Время — отдельный показатель, поэтому одновременно с остальными элементами письма его тестировать не стоит. В своей практике мы часто сталкиваемся с множественным тестированием — например, одновременно тестируются тема, персонализация и цветовое решение. Кажется, чем больше охватишь в одной версии, тем больше успеешь. Но на самом деле в емейле важен каждый компонент, и при таком тестировании неясно, что именно повлияло на итоговый результат.

Вариантов писем тоже не должно быть больше двух за одно исследование. Два письма — это почти всегда один победитель и один проигравший. Чем больше участников подключается к тесту, тем меньше разрыв между результатами и менее очевиден вывод. Кроме того, чем больше тестовых групп, тем меньше вероятность, что они будут однородны между собой и пройдут проверку А/А-тестом, про который мы поговорим ниже.

Регулярные сплит-тесты в автоматических цепочках писем

Помимо разовых тестов можно проводить регулярные сплит-тесты в цепочках сообщений, идущих по заданному сценарию. Идея заключается в том, что одни и те же письма могут с течением времени давать разные результаты. Если сегодня хорошо работает синяя кнопка, то это не значит, что и через неделю она также останется на лидирующих позициях. Регулярное тестирование позволит получать актуальную информацию о мнении подписчиков каждый день.

Что такое статистическая значимость и где ее взять?

В самих сплит-тестах нет ничего сложного, особенно при гибкой автоматизации сервисов для рассылок. Тем не менее, правильно провести исследование и получить какие-то цифры — еще не успех. Ключевой показатель сплит-теста — его статистическая значимость. Как узнать, был ли тест статически значимым и можно ли опираться на его результаты?

Как правило, уровень статистической значимости принято брать равным 95%, то есть в 95 случаях из 100 результат теста должен повториться при таком же наборе данных. Для каждой версии письма также рассчитывается доверительный интервал — диапазон значений, внутри которого лежит истинное значение измеряемой величины. Формула для расчета доверительного интервала громоздкая и пользуются ей только аналитики, но вкратце размер доверительного интервала зависит от количества участвующих в тестировании подписчиков, полученного результата и уровня статистической значимости. При увеличении количества подписчиков, участвующих в тесте, или при увеличении процента открытий и кликов у тестируемых писем доверительный интервал уменьшится.

В некоторых сервисах для рассылок статистическая значимость и доверительный интервал определяются автоматически. Это значит, что формулы и аналитик не понадобятся.

Небольшая хитрость для пользователей таких сервисов: если ползунки, отображающие доверительные интервалы, пересекаются по вертикали, версии считаются равнозначными, и письмо-победителя определить нельзя. Если ползунки не пересекаются и отдалены друг от друга — можно смело отправлять письмо-победитель оставшейся группе подписчиков.

А/А-тестирование

Допустим, мы соблюли все правила, чтобы результаты теста можно было признать значимыми, выбрали способ проведения сплит-теста, но все это может оказаться бессмысленным, если предварительно не провести А/А-тест. Редкий маркетолог знает, как и зачем его использовать.

При А/А-тестировании мы отправляем двум тестовым группам одно и то же письмо, но проверяем не контент или тему, а однородность базы подписчиков. Идея в том, что случайно выбранные части базы подписчиков должны показывать одинаковые результаты. Так, например, если при А/А-тестировании получились разные показатели открытий или кликов, базу пользователей можно считать неоднородной. Ее необходимо сегментировать до тех пор, пока результаты А/А-тестирования не будут приемлемыми.

Резонный вопрос — какой результат считается приемлемым? Здесь критерии успешности тоже основаны на статистической значимости, но они будут противоположны А/В-тестированию. Главное в А/А-тестах — чтобы результаты тестируемых писем не сильно отличались друг от друга, поэтому успешным будет такой тест, при котором доверительные интервалы будут пересекаться. И наоборот: если доверительные интервалы двух вариантов будут находиться далеко друг от друга, тест можно признать неубедительным.

А/А-тестирование не обязательно проводить часто — остаточно делать это один раз в месяц. Но, если вы тестируете клики, то каждый раз обращайте внимания еще и на открытия. Если они будут сильно отличаться в тестовых группах, то показатели кликов уже не имеют смысла.

Подытожим

Сплит-тест — оптимальный способ адаптировать емейлы для своей целевой аудитории. Он не требует особых денежных затрат, времени и отражает предпочтения ваших подписчиков. Однако по опыту могу сказать, что результаты любого сплит-теста – не вечны и работают в вашу пользу недолго. Выбор подписчиков может кардинально измениться в любой момент. Поэтому никогда не ленитесь лишний раз проверить, актуально ли исследование, которое вы проводили, к примеру, полгода назад.