Сколько времени нужно на сплит-тестирование?

Сплит-тестирование — это маркетинговая тактика, вызывающая наибольшее количество споров. Кажется, что даже у далеких от маркетинга людей есть мнение относительно того, работает она или нет.

Каков же консенсус? Сплит-тестирование превращается в трату времени, если проводится неправильно. Но при верном подходе оно может существенно повлиять на ваши конверсии.

Лишь 28% маркетологов довольны своими коэффициентами конверсии. Печальная статистика. Но именно А/Б-тестирование представляет собой простой способ улучшить показатели конверсии. Если знать, как делать это эффективно, конечно.

Но проблема в том, что многие маркетологи не уверены, в течение какого отрезка времени им следует проводить тесты и даже как настроить их для гарантированно точных результатов.

К счастью, вам не нужно становиться пионером в этой области. Многие уже извлекли пользу из А/Б-тестирования, и мы можем поучиться на их историях. Кроме того, существуют инструменты, проделывающие большую часть тяжелой работы за вас.

Посмотрим, сколько нужно проводить тесты, и изучим несколько простых правил, которые помогут вам каждый раз получать точные результаты.

Содержание статьи

Действительно ли сплит-тестирование повышает коэффициент конверсии?
Проведите исследование
Статистическая значимость
Размер имеет значение
Терпение — добродетель

Действительно ли сплит-тестирование повышает коэффициент конверсии?

Начнем с самого начала. Что такое сплит-тест?

А/Б-тест — это способ сравнить два варианта одного и того же решения для определения наилучшего из них.

Вот пример простого А/Б-теста от Optimizely:

Картинки демонстрируют вариант кнопки призыва к действию до того, как над ней поработала компания Optimizely, и после (красная кнопка со стрелкой). Коэффициент конверсии оригинального варианта был равен 1% ($1 000 в денежном выражении), в то время как новый вариант принес коэффициент, равный 4,5% ($4 500)

А/Б-тесты позволяют задавать правильные вопросы о конкретных изменениях на вашем лендинге, в вашем приложении или любом другом источнике контента, который вы хотите улучшить. Но что еще более важно, они предоставляют вашим пользователям возможность ответить самим.

Концепция это не нова. Фактически, А/Б-тестирование существует около 100 лет.
Начало данной практике было положено в сельском хозяйстве, когда фермеры пытались проверить, сколько удобрений использовать на своих полях. Затем она стало применяться в медицине в форме клинических испытаний.

Какую же пользу можете извлечь вы?

Во-первых, А/Б-тестирование дает фактические доказательства гипотезы, благодаря чему вам не приходится действовать, исходя из невероятных предположений. Вряд ли ваш финансовый отдел будет впечатлен вашими «предположениями», когда начнет планировать бюджет.

Даже команда Обамы использовала А/Б-тестирование сайте в ходе президентской кампании, и им удалось собрать на 2,8 миллиона адресов электронной почты больше.
Это привело к мощному финансированию кампании (на сумму около $60 000 000) и последующему успешному исходу.

Итак, если тесты работают, то почему ими не занимается все больше маркетологов? Во многих случаях они просто не делают тестирование приоритетом.

Несмотря на то что средний рост отклика на сайтах увеличивается на 13,2% благодаря сплит-тестам, 61% маркетологов не тестируют заголовки и темы. 74% из тех, кто все же делает это, тратят на такие тесты меньше часа:

Такие специалисты ошибочно полагают, что изменения дают незначительные результаты. Происходит это потому, что они в самом начале не замеряют то, что работает правильно.

Исследования показывают, что сплит-тестирование генерирует на 40% больше потенциальных клиентов для B2B-сайтов и на 25% больше — для сайтов электронной коммерции.

Но есть еще одна веская причина, почему некоторые компании не применяют сплит-тесты: они знают, что еще не готовы это сделать, они не находятся на этапе, когда тестирование будет полезно.

Как определить, готовы вы или нет? Если ваш объем конверсии меньше 1 000 в месяц — вы не готовы. Ваши результаты не будут статистически значимыми. Подождите, пока ваши конверсии превысят 1 000, а затем спокойно запускайте тесты.

Если вы тестируете уже которое время, но чувствуете, что не получаете отдачу от своих усилий, взгляните на основные причины, по которым сплит-тесты терпят неудачу:

Вы начинаете с неправильной гипотезы
Вы не учитываете статистическую значимость
В эксперименте задействовано недостаточно конверсий, чтобы сделать его значимым
Вы недостаточно долго выполняете тест

Разобравшись с этими 4 пунктами, вы будете уверены, что ваши тесты — не пустая трата времени.

Проведите исследование

Прежде чем двигаться вперед, нужно решить, что именно тестировать. Каждый хороший эксперимент начинается с гипотезы. К сожалению, многие владельцы сайтов проводят тесты, основываясь на своей интуиции вместо данных и продуманных гипотез.

Эта круговая диаграмма показывает, как e-Commerce-компании решают, что им нужно протестировать:

Такому подходу просто нет оправдания. Данная статья призвана доказать, что тематические исследования доказали эффективность А/Б-тестирования. От вас зависит выполнение точных тестов и реализация изменений, основанных на данных.

Во-первых, вы должны определить проблемные зоны вашей компании. Может быть, это недостаток конверсий, может, вам не хватает новых подписчиков на электронную рассылку. Затем переведите этот недостаток в достижимую цель. Сделайте ее конкретной и измеримой.

Потом взгляните на образы своих идеальных покупателей (Buyer Personas). Если вы уже какое-то время не проводили их обзор, значит, пришло время этим заняться.

Пример карточки, описывающей образ идеального покупателя, условную Салли. Жизненный опыт и статус (работа, карьерный путь, семья): руководитель отдела кадров, работает в одной и той же компании на протяжении 10 лет, дослужилась до данной должности с позиции помощника HR-специалиста; замужем, имеет двух детей (10 и 8 лет). Демографические данные (пол, возраст, доход, место жительства): женщина, 30-45 лет, совокупный доход семьи с двумя кормильцами — $140 000, проживает в пригороде. Определяющие моменты (особенности поведения, коммуникационные предпочтения): спокойна в общении; со звонками, вероятно, работает помощник; просит присылать рекламные материалы по электронке или в печатном виде

Если вы еще не создали образы идеальных покупателей, займитесь этим как можно скорее.

Попробуйте провести 5-секундный тест с небольшой частью аудитории, чтобы найти проблемные области. Как только у вас появится представление о том, что можно улучшить, начинайте писать гипотезу.

Ограничьтесь тем, что вы можете реально изменить, и не поддавайтесь соблазну задавать наводящие вопросы. Рекомендуем использовать следующую формулу:

Рекомендуем использовать следующую формулу

Может быть, вы правильно формулируете гипотезы, но не сужаете фокус экспериментирования до высокоприоритетных задач.

Итак, вы получили гипотезу. Начинаем тестировать.

Статистическая значимость

Как уже было сказано, статистическая значимость (Statistical Significance) отражает уровень риска, связанного с внедряемым изменением. Она обеспечивает уверенность в выбранном варианте.

Статистическая значимость — это способ математически доказать, что полученным результатам можно доверять. Когда вы принимаете решения на основе проводимых экспериментов, важно убедиться, что зависимости действительно существуют.

Для получения значимых результатов от значимых отношений между данными не прекращайте выполнение теста, пока не достигнете статистического значимости, равной 95-99%. Это будет означать, что вы на 95-99% уверены в верности результата.

Посмотрите на этот пример от ConversionXL:

Верхняя таблица отражает тестирование варианта, который на ранних стадиях показывал плохие результаты. Первый столбец — это вариации (контрольный вариант, вариант 1, средний случай. Второй столбец — диапазон изменения коэффициента конверсии. Третий столбец — улучшение в процентах (как видим, произошло ухудшение показателей на 89,5%). Четвертый столбец — шансы побить оригинальный вариант (0%). Пятый столбец — количество конверсий/посетителей. Нижняя таблица показывает, что тот же вариант оказался выигрышным: конверсия улучшилась на 25,18%, шансы побить контрольный вариант составили 95%

Как видно, изначально вариант 1 проигрывал контрольному. Но, дождавшись статистической значимости в 95%, проводившие эксперимент специалисты получили совершенно иной результат. В итоге вариант 1 принес улучшение более чем на 25%. Прервав тест слишком рано, они получили бы искаженные результаты, и тест был бы бессмысленным.

Мы не устаем подчеркивать: не останавливайте тест, пока не достигнете адекватного уровня статистической значимости. Доходите минимум до 95%, ставя целью 99%. Все остальное будет лишь неоправданным предположением, не больше.

Достижение статистической значимости не является единственным компонентом успешного сплит-теста. Объем выборки также сильно влияет на результаты.

Размер имеет значение

Если размер выборки слишком мал, риск погрешности будет увеличиваться. И это вполне логично.

Предположим, что у вас есть мешочек с сотней мармеладок, и вы хотите провести тест, чтобы оценить вероятность вытаскивания разных вкусов. Скажем, вы наугад вытащили 3 мармеладки, и все три оказались яблочными. Если вы будете ссылаться только на эти 3 сладости с ароматом яблока для оценки вероятности вытащить еще одну яблочную мармеладку, то вы вряд ли получите точный результат в своем тесте. Вполне возможно, что в мешочке в общей сложности всего 4 или 5 таких мармеладок, и вы просто случайно выбрали 3 из них. Или, возможно, половина из всех конфет — яблочные, а другая половина — вишневые.

В любом случае, если вы используете только эти 3 мармеладки для определения шансов на наличие большего количества яблочных конфет, вы будете считать, что эти шансы намного выше, чем на самом деле.

Или, если вы вытащите 3 конфетки и ни одна из них не окажется яблочной, то вы можете ошибочно предположить, что в мешочке нет мармелада со вкусом яблока.

Это два разных предположения, но оба они неверны, потому что размер выборки теста был слишком мал, чтобы делать обоснованные выводы.

Итак, чему равно магическое число конверсий или иных моментов, необходимых для вашего теста? Очевидно, число это немного меняется в зависимости от общего количества посещений и конверсий. Но надежным минимальным ориентиром будет число 1 000 (конверсий, клиентов, посетителей и т.д.). Некоторые эксперты по маркетингу даже рекомендуют выборки вплоть до 5 000 человек.

Помните, что если вы используете А/Б-тест (то есть эксперимент с двумя вариантами), вы автоматически разделяете эту выборку пополам и показываете один вариант каждой половине. Понятно, что работа с группой меньше 500 человек не будет иметь смысла. Для наглядности, ниже представлен пример того, как организуется разбивка трафика на 2 группы для сплит-теста на платформе LPgenerator:

Не забывайте убедиться, что выбранная вами аудитория представляет все виды пользователей в вашей конверсионной вселенной, иначе вы получите неточные результаты из-за искаженной выборки.

Вот типичный пример подобного искажения.

Пользователи получают доступ к вашему лендингу и иному контенту посредством множества различных устройств. Учитывая каждое из этих посещений, вы становитесь жертвой так называемого «гаджет-загрязнения», потому что, по сути, вы считаете одних и тех же посетителей несколько раз.

Есть и другие факторы, которые стоит учитывать, например, не использует ли одно и то же устройство несколько пользователей, общедоступность компьютера (в библиотеке, например) и т.д. Учтите все эти нюансы заранее, чтобы не «загрязнять» выборку.

Как это сделать? Один из способов — запускать отдельные А/Б-тесты для разных устройств и браузеров. Конечно, тут будет сложнее набрать достаточную по размеру группу тестируемых. Но зато вы будете уверены, что выборка для конечного теста будет правильной.

Теперь мы углубимся в самую сердцевину сплит-тестирования и ответим на вопрос на миллион долларов: сколько же времени нужно тестировать?

Терпение — добродетель

Маркетологи часто ошибочно заканчивают свои тесты слишком рано, считая, что они уже получили ответ. Спеша с выводами о том, какая вариация является победителем, вы получите искаженные результаты, и тест окажется неэффективным.

Зачем вам проводить тест, если вы уже знаете ответ? Выполняя честный тест, вы должны позволить процессу развернуться по полной.

Помните о статистической значимости? Нелишним будет повторить: всегда, всегда, всегда придерживайтесь правила 95%+ и не заканчивайте тест, пока не достигнете такого уровня значимости или выше. Найдите инструмент, дающий понимание о статистической значимости, и наберитесь терпения.

Теперь поговорим о времени.

В идеале для получения точных данных тесты проводятся не менее двух недель.
Почему? Конверсии и веб-трафик сильно различаются в зависимости от нескольких ключевых переменных.

Посмотрите на эти данные от Conversion XL:

Первая колонка — день недели (сверху вниз): пятница, четверг, вторник, суббота, среда, понедельник, воскресенье. Вторая колонка — уникальные посетители (% от общего числа, равного 536 048). Третья колонка — коэффициент конверсии eCommerce-сайта (средний показатель — 3,41%). Четвертая колонка — взаимодействия (% от общего числа, равного 26 362). Пятая колонка — прибыль (% от итога в $1 458 659,12)

Коэффициенты конверсии по четвергам намного выше, чем в выходные. В этом случае тестирование в течение периода меньше недели будет сильно искажать результаты. Как правило, тестировать нужно минимум 7 дней. Затем следует убедиться, что вы достигли статистической значимости, и добавить еще 7 дней, если общий срок тестирования не достиг двух недель.

Лучше больше данных, чем меньше. Заложите необходимое время в план, и тогда сроки не будут поджимать, заставляя вас прервать тест слишком рано.

Можно ли проводить тест более двух недель? Конечно!

Посмотрите на этот пример от TruckersReport. Это была их исходная целевая страница:

«Срочно требуются водители большегрузных машин. Поиск вакансий для водителей стал простым»

На первый взгляд, кажется, что страница в порядке. Но компания не получала достаточно откликов, и максимум конверсии был равен 12%.

Взгляните на новый дизайн:

«Получи работу водителя большегрузной машины с более высокой зарплатой»

Новая разметка страницы принесла рост конверсий до 79,3%. Как им удалось этого добиться? Они не рассматривали А/Б-тесты как «одноразовые» акции. В течение 6 месяцев они провели 6 повторяющихся тестов (Iterative Tests). При этом учитывалась статистическая значимость выше 95%, плюс фиксировался каждый особый паттерн трафика, независимо от того, какие устройства использовали водители, ищущие работу.

Вот еще один пример, когда терпение окупилось. Маркетологи Copy Hackers провели А/Б-тест своей домашней страницы:

После первых двух дней их результаты были неокончательными. Но после шестого дня они достигли статистической значимости в 95%. Вы бы остановились?

Они этого не сделали. Они продлили тест еще на один день, так как не прошла полная неделя. Один дополнительный день принес им совершенно другой результат, который привел увеличил конверсии на почти 24%. За сутки уровень статистической значимости вырос с 95% до 99,6%.

Вариация 1 побила оригинальную страницу на 23,8%

Терпение приносит результаты.

Но что если время идет (и мы говорим о месяцах, не о днях, тестирования), а ваши 2 варианта идут вровень друг с другом?

Если вы прошли все шаги, а явного победителя нет, иногда приходится начинать тесты заново с новым набором вариантов. Это вполне нормально.

Заключение

Несмотря на то что можно найти противоречивые мнения о сплит-тестировании, трудно оспаривать результаты, достигнутые, благодаря им, многими компаниями.

Некоторые организации полностью игнорируют А/Б-тестирование. Обычно это происходит после запуска нескольких ошибочных тестов, оказавшихся пустой тратой времени.

Не уподобляйтесь им. Не упускайте возможности прирастить конверсии и собрать данные из-за нескольких скептиков в вашей организации.

Еще не пробовали А/Б-тестировать? Пришло время сделать это. Вы не одиноки. Те, кто проходили данный путь до вас, сделали большую часть работы и провели первые эксперименты в этой области.

Просто запомните «Большую четверку» факторов, негативно влияющих на сплит-тестирование, и следуйте этим правилам в процессе:

Формируйте правильные гипотезы — никаких догадок или интуитивных решений.
Продолжайте тест, пока не достигнете статистической значимости в 95-99%.
Убедитесь, что размер выборки достаточно большой (не менее 1 000 конверсий).
Не останавливайте выполнение теста слишком рано. Нацельтесь на 1-2 недели.

Если резюмировать все вышесказанное в 4 словах, мы сказали бы следующее: будьте точны и терпеливы. А платформа LPgenerator поможет вам с настройкой и организацией сплит-тестов для ваших лендингов.

Высоких вам конверсий!

По материалам: neilpatel.com

18-07-2018