Осторожно! Сплит-тест — это иллюзия

Мы нарочно использовали этот провоцирующий заголовок для привлечения вашего внимания. Данный пост действительно важен для любого практикующего маркетолога.

Сплит-тест может быть иллюзией и вот почему.

Хороший маркетолог в течение года проводит десятки сплит-тестов, и результаты многих из них кажутся обнадеживающими — новые варианты лендингов могут принести вам прирост лидов и продаж больше чем на 25%.

Воодушевленные заманчивыми перспективами, вы применяете протестированные изменения посадочных страниц, но доходы компании, увы, не увеличиваются на четверть.

Спустя год после окончания тестирований коэффициент конверсии все еще так же высок, как в момент достижения порога статистической значимости и остановки сплит-теста.

В чем же заключается ошибка? Ответ таков: прирост был мнимым.

Изменения лендинга с самого начала не вели к подъему важнейших бизнес-метрик. Да, вы достигли 95% статистической достоверности или даже еще более высокого значения этого параметра. Но это ничего не значит, потому что достижение порога значимости — не то же самое, что подтверждение истинности некоего утверждения (в нашем случае — «новый вариант лендинга принесет увеличение количества лидов»).

Методология проведения сплит-тестирования

Правило остановки сплит-тестирования

Если в ходе тестирования вы достигли уровня значимости 95% или 99%, это отнюдь не равнозначно тому, что вы нашли какое-то выигрышное решение, непременно ведущее к успеху — это совершенно не взаимосвязанные материи.

Вот наглядная иллюстрация: результаты через 2 дня после начала тестирования.

Правило остановки сплит-тестирования

Произведенное на посадочной странице изменение привело к катастрофическому ухудшению конверсии (падение на 89,5%, причем это значение выходит далеко за пределы погрешности измерения — этим цифрам можно доверять безоговорочно). Шансы нового варианта лендинга (Variation 1) победить начальный вариант посадочной страницы (Control) равны нулю.

Перед нами — статистически значимый результат. Загрузим эти числовые значения в любой online калькулятор статистической значимости, и он подтвердит достоверность полученных данных:

сплит-тест

Итак, сплит-тест, имеющий предельное значение статистической значимости (100%), показывает, что первоначальный вариант лендинга конвертирует посетителей в лиды на 800% эффективнее, чем его модифицированная версия (Variation 1). Внесенные изменения оказались не то что бесполезны, а попросту вредны.

Однако не будем спешить с выводами и продолжим тестирование. Вот какие результаты мы видим через 10 дней:

результаты

Новый вариант лендинг пейдж, ранее имевший нулевые шансы на победу, побеждает контрольную страницу с вероятностью 95%. И как это понимать? Почему полученные в начале теста 100% достоверности и прогноз «0% на победу» стали бессмысленными?

Да потому, что они с самого начала были таковыми.

Если вы слишком рано останавливаете сплит-тест, существует очень большая вероятность того, что вы выберете неправильного победителя тестирования. К сожалению, рассмотренный выше сценарий все еще встречается в практике оптимизации конверсии чаще, чем следовало бы: как только достигнут порог значимости, маркетолог имплементирует кажущееся удачным изменение на посадочную страницу и перенаправляет на нее весь трафик.

Но на самом деле предполагаемые 800% подъема конверсии по прошествии некоторого времени становятся равны нулю или даже принимают отрицательные значения (что по сути означает прямые финансовые потери).

Однако мнимый подъем конверсии еще не самое худшее, что может случиться с маркетологом, слишком рано прервавшим тест — гораздо опаснее ложное чувство уверенности в том, что вы чему-то научились, узнали что-то новое, что-то сделали правильно.

Пытаясь применить полученные «знания» в последующих сплит-тестах других лендингов, вы раз за разом будете повторять одну и ту же ошибку. Полученный вами опыт на самом деле не то что бесполезен — он вреден, а его применение на практике не приведет ни к чему, кроме пустой траты сил, времени и денег.

Даже 95% достоверности определения варианта-победителя, достигнутые на десятый день тестирования, еще не повод для прекращения исследования. Статистическая выборка слишком мала, абсолютная разница в конверсии составляет всего 19 достижений целей в примере выше. Ситуация может кардинальным образом измениться всего за один день.

Тон Весселинг (Ton Wesseling), основатель облачного сервиса сплит-тестирования Testing Agency, предупреждает:

«Вы должны знать, что остановка теста сразу же по достижении порога статистической достоверности является “смертным грехом номер 1”. На самом деле вы еще не получили значимый результат, пригодный для практического применения: 77% из A/A-тестов (некая посадочная страница тестируется против той же самой страницы) в определенный момент достигают порога значимости».

Опровержение 10 мифов о сплит-тестировании

Чем не является статистическая значимость

Достижение порога достоверности — это не команда «Стоп!» для вашего сплит-теста («правило остановки», stopping rule). Статистическая значимость — не единственный критерий, определяющий, закончено ли тестирование или его следует продолжить.

Статистическая значимость никак не коррелирует с достоверностью утверждения, что вариант Б целевой страницы лучше варианта А. Достижение порога достоверности никак не предупредит маркетолога о том, что предпочтя вариант Б варианту лендинга А он совершит ошибку.

Приведенные выше утверждения являются ничем иным как необычайно широко распространенными в кругах веб-маркетологов заблуждениями. Широкое распространение подобных мнений не делает их, однако, менее ошибочными.

Тест должен быть продолжительным

Если вы прекратите свои сплит-тесты через несколько дней после начала процесса, вы совершите ошибку. Не имеет значения, получаете ли вы 10 000 переходов на лендинг в день — абсолютное число конверсий, разумеется, имеет значение, но маркетолог должен также отслеживать чистое время проведения тестирования.

Мэтт Гэршофф (Matt Gershoff), CEO SaaS-решения по оптимизации пользовательского опыта, объясняет, почему длительность проведения теста столь важна:

«Одна из трудностей онлайн-тестов — невозможность контролировать действия многочисленных пользователей. Это непростая задача, ведь активность посетителей отличается в разное время суток, определенные дни недели и времена года. В связи с этим мы должны быть уверены, что мы собираем статистику по каждому релевантному циклу взаимодействия пользователей с сервисом. Такой подход позволяет нам получать более репрезентативную (более статистически достоверную) выборку, чем выборка на основе среднестатистических значений.

Обратите внимание, что простая сегментация не решит нашу задачу, так как нам нужны статистические данные по будним и выходным дням и т. д. Еще нам нужна ежедневная выборка данных или же выборка на протяжении нескольких часов, осуществляемая несколько раз в сутки. Такие данные позволят вычислить средние величины посещаемости/конверсии и определить внешние события, влияющие на количество трафика/конверсию.

Вся эта статистика служит для получения точных оценок влияния времени суток, в которое происходит взаимодействие пользователя из определенного сегмента целевой аудитории с веб-ресурсом, на конверсию. Предварительная базовая сегментация происходит на основе предпочтений пользователя: выбранные им опции сервиса, купленный пакет услуг и т. д.».

Уже знакомый нам специалист по оптимизации конверсии Пип Лайя (Peep Laja) в ходе сплит-тестов заметил любопытную часто повторяющуюся закономерность:

Первая пара дней: новый вариант лендинга (вариант Б) выигрывает с большим отрывом, что обычно объясняется действием «фактора новизны».
После первой недели новый вариант заметно выигрывает.
После второй недели вариант Б выигрывает с небольшим перевесом.
После четвертой недели происходит регрессия конверсии нового лендинга к среднему значению, а подъем исчезает.

Так что если маркетолог останавливает тест раньше, чем через 4 недели (а может быть, и всего через несколько дней после запуска), будучи уверен, что у него на руках выигрышный вариант целевой страницы, то он совершает ошибку. Когда новый вариант страницы будет размещен в Сети и на него будет направлен трафик, маркетолог сможет насладиться тем, что называется «мнимый подъем». Разочарование, впрочем, наступит довольно скоро: да, инструмент тестирования показал рост конверсии на 25%, но на банковском счете никакого роста не наблюдается. ;)

Запустите сплит-тест на достаточно продолжительное время. Убедитесь, что он включает в себя 2 бизнес-цикла, содержит достаточно конверсий и переходов, вычисляемых в абсолютных величинах, и продолжается необходимое для получения достоверных результатов количество времени.

Как оптимизировать конверсию при низком трафике?

Пример мнимого подъема

Вот тест ресурса eCommerce: продолжительность 35 дней, таргетированный трафик принимался только от посетителей, заходящих с десктопов, число переходов составило приблизительно 3000 на каждый из вариантов лендинга.

Наблюдаем следующую картину:

Пример мнимого подъема

В первую пару дней вариант номер 3 (синяя линия) выигрывает с солидным опережением — доход на каждого посетителя составляет $16 против $12,5 на контрольном варианте лендинга. Есть победитель! Многие маркетологи заканчивают тест именно в этот момент, а это — ошибка.
Через 7 дней синяя линия еще наверху с относительно большим отрывом.
Через 14 дней выигрывает вариант номер 4 (оранжевая линия).
После 21 дня — «оранжевый» вариант пока побеждает.
Конец теста (35 день): разницы в показателях нет.

Представим, что на проведение теста у вас ушло меньше 4 недель — вы дважды рисковали «поставить не на ту лошадь».

Правило остановки

Так когда же сплит-тест можно завершить?

Универсального ответа нет, в каждом конкретном случае действуют особые факторы, определяющие момент остановки испытаний. Однако можно выделить несколько хорошо зарекомендовавших себя правил, которые пригодятся вам в большинстве случаев.

Пип Лайя делится своими правилами остановки:

Длительность тестирования не менее 3 недель (лучше 4).
Минимальное количество достижений целей конверсии — не менее 250-400 на каждый вариант лендинга.
Статистическая значимость — минимум 95%.

Разумеется, 2 одинаковых сплит-тестов не бывает, поэтому нужно вносить соответствующие коррективы в соответствии с условиями проведения тестирования, маркетинговой нишей, типом оффера, источниками траффика и т. д.

А вот что говорит по этому поводу Тон Весселинг:

«Тестируйте как можно дольше — по крайней мере, 1 полный цикл покупки. Чем больше данных, тем выше статистическая ценность теста. Чем больше трафика, тем больше шанс правильно определить победителя при достаточном уровне достоверности сплит-теста.

Небольшие изменения на целевой странице могут оказать большое влияние на конверсию, но это случается не так уж и часто. В большинстве случаев вариант-победитель будет лишь чуть лучше всех остальных, так что маркетологу нужен солидный массив данных для безошибочного определения статистически достоверного победителя.

Если же тест длится слишком долго, то участники начинают удалять cookies по схеме “10% каждые 2 недели”. Возвращаясь к тестированию, “испытатели” могут предпочесть другой вариант лендинга, не тот, что в начале сплит-теста — так с течением времени ваша статистическая выборка будет “загрязняться” все больше и больше.

В конечном итоге показатель конверсии приблизится к некоему среднестатистическому значению, а сплит-тест окажется практически бесполезным. Максимальная длительность теста — 4 недели».

Оптимизация конверсии и статистическая достоверность

Что делать, если через 3 или 4 недели тестирования размер выборки составил меньше 400 конверсий на вариант?

Если за 4 недели статистически значимый размер выборки не достигается, рекомендуется продлить тест еще на неделю.

Всегда проводите тест полными неделями, т. е. если вы запустили его в понедельник, он должен закончится в воскресенье 4 недели спустя. Если тест будет прерван среди недели, вы можете невольно исказить полученные результаты.

Если смотреть отчет изменения бизнес-метрик по дням недели, то можно заметить определенные колебания (ежедневные флуктуации). Вот пример: по четвергам на данном веб-ресурсе выручка в 2 раза больше, чем по субботам и воскресеньям, а коэффициент конверсии по тем же четвергам почти в 2 раза выше, чем в субботу.

Так что если вы не тестируете полными неделями, вы рискуете получить неточные данные.

Помните: продолжительность теста отсчитывается полностью завершенными неделями.

Помните о сегментах: одинаковые правила остановки для каждого из них

Сегментация является ключом к пониманию процесса сплит-тестирования. Вот очень распространенный пример: вариант Б целевой страницы проигрывает варианту А по общим результатам, но в то же время вариант Б демонстрирует лучшую конверсию в определенных сегментах (по трафику от Facebook, среди пользователей мобильных устройств и т. д.).

Прежде чем приступить к анализу любых сегментированных данных, вы должны убедиться, что у вас есть статистически достоверная выборка данных для каждого отдельного сегмента (250-400 конверсий на каждый вариант).

Рекомендуется проведение таргетированных сплит-тестов с тестовой конфигурацией «целевая аудитория/сегмент» вместо анализа результатов по каждому сегменту после завершения тестирования. При подобном подходе вы будете уверены, что каждый сегмент имеет выборку адекватного размера.

Эксперт по оптимизации конверсии André Morys из крупнейшего в мире агентства CRO Web Arts так говорит о своих правилах остановки «сегментированных» сплит-тестов:

«Я всегда настаиваю на том, что маркетологам нужна репрезентативная выборка (т. е. представительный образец, англ. represantative sample), если вы хотите чтобы ваши данные были по-настоящему полезны. Что имеется в виду под «представительным»? — спросите вы.

Прежде всего ваша статистика должна включать как будние, так и выходные дни. Вы должны учитывать изменения погоды, потому что этот фактор заметно влияет на поведение покупателей. Но самое главное: вы должны учитывать все источники трафика, особенно eBooks или White Papers, специальные маркетинговые кампании, телевизионную рекламу — все, одним словом! Чем дольше выполняется тест, тем лучше вы понимаете происходящее.

Как-то мы проводили тестирование крупного ритейлера модной одежды в средней фазе летней распродажи. Было интересно увидеть, как в период «фазы жестких распродаж» результаты драматически упали до 70% и восстановились до прежних значений через неделю после окончания этой фазы. Мы никогда бы не узнали об этом феномене, если бы наше тестирование длилось меньше 4 недель.

Наше главное правило проведения тестов звучит так: 3000-4000 конверсий на каждый вариант и продолжительность испытания 3-4 недели. Такой подход обеспечивает количество трафика, вполне достаточное для начала сплит-тестов и анализа отдельных сегментов при соблюдении условия статистической значимости собранных данных.

“Смертный грех номер 1” в тестировании: искать рост конверсии в сегментах, если не достигнут порог статистической достоверности; например, у вас есть 85 конверсий против 97. Это полная ерунда».

Учиться на тестированиях — вот что действительно важно, важнее даже чем получать сиюминутную прибыль. А сегментация тестовых данных — один из лучших способов научиться оптимизировать конверсию быстро, надежно, на твердом фундаменте знаний, а не на зыбкой почве догадок. Просто убедитесь, что в каждом из сегментов собрано достаточно данных, а потом уже делайте какие-либо выводы.

Заключение

Не прекращайте ваш тест только потому, что вами достигнут уровень статистической значимости в 95% или выше. Обратите внимание на абсолютное количество конверсий, приходящееся на каждый вариант лендинга, и на продолжительность тестирования.

Высоких вам конверсий!

По материалам conversionxl.com, image source Craig Johnston

30-10-2014