Практический online-курс

Гид по оптимизации конверсии: 10 статистических «ловушек» сплит-тестирования

Гид по оптимизации конверсии: 10 статистических «ловушек» сплит-тестирования

Даже тщательно спланированные сплит-тесты могут давать статистически неверные результаты. «Ловушка» может поджидать вас на любом этапе тестирования в случае, если применяются некорректные подходы к анализу данных.

В данной статье описаны 10 важнейших статистических ошибок и неточностей, о которых следует помнить. Также вы найдете несколько практических советов, которые помогут вам быть уверенными в том, что результаты теста корректны.

Часть 1: «Ловушки», поджидающие вас перед проведением тестирования

№1: Слишком много вариантов

Тестирование большого количества вариантов – не очень хорошая затея. Процесс оптимизации всегда должен быть основан на каком-либо предположении. Тестирование случайных вариантов ни к чему не приведет. Другой проблемой является валидность: чем больше вариантов вы тестируете, тем выше вероятность, что один из них станет безусловным «победителем», хотя на самом деле эта опция не будет наилучшим выбором.

Каждое сплит-тестирование подразумевает под собой определенную возможность ошибки. Это связано с тем, что для теста берется не вся клиентская база или целевая аудитория, а лишь определенная выборка. Это и приводит к небольшим неточностям в конечных результатах. Задачей тестирования, тем не менее, является перенос полученных результатов на оставшуюся часть целевой аудитории. Данная ситуация наглядно продемонстрирована на рисунке ниже:

Слишком много вариантов

Клиентская база – Выборка – Тестирование (Вариант А и Вариант В) – Перенос результатов на остальную часть клиентов

Таким образом, результаты тестирования должны быть перенесены на всю целевую аудиторию, чтобы сделать общий вывод. Но, как уже было написано выше, любой тест предполагает некий процент возможных ошибок. Обычно он составляет около 5%. Однако такой показатель получается, только если тестируется один вариант. В случае мультивариантного тестирования процент ошибки будет, соответственно, выше. Ниже представлена диаграмма, отображающая зависимость возможности возникновения ошибок от количества тестируемых вариантов:

мультивариантного тестирования

Таким образом, можно сделать вывод о том, что чем больше вариантов вы будете тестировать, тем выше риск принятия неверного решения.

№2: Оценка взаимосвязей

Многие специалисты по оптимизации конверсии уверены в том, что нельзя проводить два сплит-теста одновременно, так как их результаты могут повлиять друг на друга, и в итоге общая картина окажется искаженной.

Однако на этот счет существует и другое мнение, основанное на том, что результаты нескольких тестов, проведенных одновременно, дополняют друг друга.

В действительности, решение о том, стоит ли проводить два сплит-теста одновременно, зависит от контекста ситуации. Ниже представлено несколько возможных сценариев:

1. Низкий риск взаимовлияния. Если трафик, необходимый для обоих тестов, не пересекается друг с другом, то их вполне можно провести одновременно. Например, вы можете протестировать уникальное торговое предложение на главной странице одновременно с отзывами клиентов на карточках товаров. В этом случае один и тот же пользователь может «поучаствовать» в обоих тестах. Вероятность того, что два сплит-теста будут «конкурировать» друг с другом, очень невелика.

Почему же это работает? Если не углубляться в математические расчеты, то основой любого сплит-теста является принцип случайного выбора:

сплит-тест

100 посетителей

Тест 1: Главная страница: Вариант А – 50 посетителей, Вариант В – 50 посетителей;
Тест 2: Карточка товара: Вариант С – 25 посетителей, Вариант D – 25 посетителей;

25 посетителей видят варианты А и С;
25 посетителей видят варианты А и D;
25 посетителей видят варианты В и С;
25 посетителей видят варианты В и D.

Таким образом, мы видим, что когда действует принцип случайного выбора, количество посетителей распределяется равномерно.

2. Высокий риск взаимовлияния. Разумеется, существуют и такие сплит-тесты, которые не рекомендуется проводить одновременно. Например, вы хотите протестировать расположение отзывов о товаре на странице. А также вы намерены изучить, как порядок размещения отзывов влияет на конверсию. Если вы проведете два этих сплит-теста одновременно, то рискуете получить двусмысленные результаты.

Существует несколько вариантов решения проблемы с тестами, чьи результаты могут повлиять друг на друга. Самым простым из них является проведение двух сплит-тестов по отдельности. Трафик лучше всего распределить в соотношении 50 на 50.
Если такое распределение невозможно, то необходимо определиться, какой из сплит-тестов является более приоритетным.

Второй вариант решения данной проблемы – мультивариантное тестирование. Это имеет смысл только в том случае, если сплит-тесты имеют одну и ту же цель. Кроме того, они должны касаться одной и той же страницы сайта (как в примере с отзывами клиентов на карточке товара).

№3: Количество кликов и коэффициент конверсии

Многие маркетологи полагают, что если возрастет количество кликов, то в скором времени можно будет наблюдать рост коэффициента конверсии. Но не все так просто, как кажется. Даже если посетители сайта стали чаще добавлять товар в корзину, это вовсе не означает, что объем продаж вырастет.

Выбор и определение приоритетных KPI

Основным показателем KPI для интернет-магазинов обычно является коэффициент конверсии. Если сплит-тест ориентирован на этот показатель, то он, соответственно, является приоритетным.

Другим типичным KPI для интернет-магазина является прибыль с посетителя. Например, задачей комплексной продажи является убедить человека купить сопутствующий товар (к примеру, футболку вместе с джинсами). В этом случае показатель дохода с посетителя будет более релевантным, чем коэффициент конверсии.

Ниже можно наглядно увидеть разницу между макро- и микроконверсиями и еще раз убедиться в том, что первые являются главным приоритетом для любого бизнеса:

Макроконверсии

Сколько?
Макроконверсии:
конверсии;
заказы;
доход;
процент возвратов;
прибыль;

Почему?
Микроконверсии:
Клики;
Посетители;
Просмотры;
Глубина прокрутки;
Процент отказов;
...

Это вовсе не означает, что такие показатели, как количество просмотров и кликов, вовсе не имеют значения. Тем не менее, они не должны служить основным «мерилом» эффективности сайта или лендинга.

Предположим, вам необходимо протестировать новый вариант панели навигации. Но, как ни странно, результаты сплит-теста не показывают никаких изменений коэффициента конверсии или объемов прибыли. Тогда возникает вопрос: посетители используют новую панель навигации так же, как и старую? Или они перемещаются по сайту каким-либо другим способом? В этом случае будет полезно проанализировать карту кликов, чтобы понять, как ведут себя посетители вашего сайта.

Вам следует знать еще одну особенность тестирования, которая зависит от выбранного KPI. При проведении сплит-теста вы уже через небольшой промежуток времени можете наблюдать сдвиги в микроконверсиях, такие как клики и добавление товаров в корзину. Но не стоит ожидать быстрых изменений коэффициента конверсии.

На самом деле существует определенная связь между величиной выборки и типом KPI. Это зависит от колебаний и неточности определенных показателей. Чем выше вероятность этих неточностей, тем дольше должно проводиться тестирование, чтобы добиться ощутимого эффекта. На рисунке ниже наглядно представлена зависимость длительности сплит-теста от типа KPI:

KPI

Клики – Конверсия – Объем продаж – Объем прибыли – Ценность клиента

Чем больше неточности свойственно конкретному KPI, тем дольше должно проводиться тестирование.

Число кликов и просмотров по-другому называют количественными данными. Эти показатели лишены неточности: человек либо кликнул либо нет.

Коэффициент конверсии в этом плане отличается от этих метрик. Совершит человек покупку или нет, зависит от других факторов, что вызывает неточности.

И наконец, не стоит измерять сразу несколько показателей. Чем больше KPI вы будете измерять, тем сложнее будет принять окончательное решение. Тем не менее, ситуацию можно упростить, грамотно расставив приоритеты. Но необходимо определиться с приоритетными макро- и микроконверсиями еще до начала тестирования.

№4: Мультивариантные тесты

Многие маркетологи убеждены в том, что мультивариантные тесты слишком дорогие, а их результаты трудно поддаются оценке.

Ниже представлено схематичное изображение подобного сплит-теста:

Мультивариантные тесты

Успех мультивариантного теста зависит от того, насколько грамотно вы его проводите. Одновременное тестирование сразу нескольких вариантов может показаться чересчур сложным, однако это не обязательно будет так. Необходимо просто держать в голове несколько правил.

Во-первых, не стоит тестировать слишком много вариантов одновременно. Помните о том, что было сказано в самом начале статьи: чем больше тестируемых вариантов, тем выше вероятность того, что вы примете неверное решение. Вам следует сформировать гипотезу, а также тщательно подобрать комбинации вариантов для проверки. Ниже представлен пример таблицы с результатами мультивариантного теста:

Мультивариантные тесты

Названия столбцов слева-направо: варианты, прибыль с одного посетителя, процент улучшения, вероятность «превзойти» старый вариант.

Во-вторых, не стоит слепо доверять результатам мультивариантного тестирования. Вначале вам стоит обратить внимание на то, какой вариант привел к наибольшим улучшениям показателей. Также необходимо проанализировать влияние индивидуальных факторов на коэффициент конверсии. Это может быть сделано при помощи так называемого дисперсионного анализа. Данный метод помогает изолировать влияние индивидуальных факторов (например, цвета или расположения элементов на странице) на коэффициент конверсии.

Оценить полученные результаты можно также, проведя повторное тестирование. Вы можете протестировать «варианты-победители», чтобы выявить наилучший. Индивидуальные факторы, влияющие на конверсию, могут быть протестированы отдельно (это показано на рисунке ниже):

цвета или расположения элементов на странице

Часть 2: «Ловушки», подстерегающие вас во время тестирования

№5: Слишком быстрое завершение тестирования

Увидев, что один из вариантов очевидно «опережает» другой уже через три дня, многие специалисты могут решить, что пора прекращать тестирование. Однако, чтобы определить, верным ли было ваше первоначальное предположение, потребуется больше времени. Любой сплит-тест имеет временные рамки, которым он подчиняется. Их необходимо соблюдать, ведь только таким образом вы сможете быть уверенным в том, что сделали правильные выводы.

В первые дни проведения тестирования можно обычно заметить колебания показателей. Это наглядно отображено на графике ниже:

Слишком быстрое завершение тестирования

На графике отчетливо видны сильные колебания коэффициента конверсии в самом начале проведения сплит-теста. Этим результатам не стоит доверять. Перед проведением тестирования, вам необходимо четко определиться с временными рамками. Это можно сделать при помощи специальных инструментов.

Если в начале тестирования показатели упали, следует сохранять спокойствие и продолжать начатое.

№6: Исключение вариантов

Разумеется, в случае, если один из тестируемых вариантов приносит настолько плохие результаты, что это оказывает негативное влияние на ваши бизнес-цели, вам захочется исключить его. Также зачастую специалисты отбрасывают варианты с низким распределением трафика. Наконец, маркетологи нередко начинают вносить изменения уже в ходе тестирования.

Все это значительно искажает результаты. Если вы изменяете объем трафика, это приводит к тому, что ваш сайт слишком много или мало представлен в сети.

Исключение одного из вариантов в середине тестирования имеет такой же эффект. Также если изменить его суть, то в результате получится непонятная смесь различных гипотез, которые не позволят вам сделать правильный вывод.

В подобной ситуации необходимо найти оптимальный баланс между научными изысканиями и практическими целями. Ниже представлено несколько советов, которые помогут вам достичь этого:

  • если вы исключаете один из вариантов в первые несколько дней после начала тестирования, то рекомендуется начать весь процесс заново. В таком случае вы потеряете совсем немного времени;
  • если вы подвергаете тестируемые варианты каким-либо изменениям, то лучше затем провести отдельный сплит-тест, чтобы сравнить их со старыми;
  • если в процессе тестирования вы постепенно увеличиваете объем трафика, следует убедиться в его качестве. Но по возможности объем трафика должен оставаться стабильным.

№7: Процедура вычисления критерия Байеса

Согласно критерию Байеса оптимальным является такой обнаружитель, который минимизирует средний риск. Это новая методика, преимущество которой заключается в том, что результаты теста не имеют срока давности. Также ее можно применять даже при недостаточной величине выборки. Однако процедура вычисления Байесовского критерия также имеет свои недостатки:

1. Неоправданные ожидания. Обязательным условиям проведения процедуры вычисления критерия Байеса является формулировка предварительной гипотезы. Если данное предположение окажется ошибочным, то вы попросту потеряете время и получите некорректные результаты;

2. Слишком маленький размер выборки. Вначале уже было сказано о том, что результаты подобного тестирования можно интерпретировать в любой момент. Однако в самом начале, когда колебания показателей слишком заметны, не стоит спешить с выводами.

Несмотря на все очевидные преимущества Байесовского метода, при недостаточном размере выборки результаты теста будут некорректны. Кроме того, данная методика не убережет вас от типичных ошибок, совершаемых во время сплит-тестирования.

Часть 3: Ошибки, связанные с оценкой результатов тестирования

№8: Доверие только одному источнику данных

Разумеется, специальные программы для сплит-тестирования помогут вам определить, приведет ли ваше предположение к повышению коэффициента конверсии. Однако полученные результаты лучше всего комбинировать с другими источниками данных, такими как системы веб-аналитики. Благодаря этому вы сможете ответить на несколько возникающих вопросов.

Например, когда после окончания тестирования вы получаете абсолютно неожиданные результаты, возникает закономерный вопрос «почему». В такой ситуации целесообразно будет обратить внимание на микроконверсии.

Ниже представлена схема комбинации различных источников данных, позволяющая грамотно интерпретировать результаты сплит-теста:

одному источнику данных

Программа для тестирования – Веб-аналитика, Хранилище данных, Поведение посетителей.

Комплексный анализ данных из различных источников поможет вам лучше понимать своих клиентов.

Еще один вопрос, который задают себе специалисты по оптимизации: приведут ли изменения коэффициента конверсии к росту прибыли? Если в результате мероприятий по оптимизации посетители стали делать больше заказов, это наилучший вариант. А если продажи остаются на прежнем уровне, то это может привести к финансовым потерям.

Кроме того, необходимо учитывать объемные заказы, ведь из-за «оптовиков» могут возникнуть проблемы с оценкой результатов тестирования. Объемные заказы могут поступать от клиентов из сферы B2B или просто тех, кто чрезмерно увлекается онлайн-шоппингом. Почему же они могут искажать результаты сплит-тестов? Это происходит из-за того, что при этом учитываются средние показатели конверсии, объемов продаж и т.п. Если один из клиентов сделал большой заказ, то показатели автоматически «ползут» вверх.

Что же можно сделать для того, чтобы избежать неверной трактовки результатов в подобной ситуации? Большинство программ для сплит-тестирования позволяют исключить из отчета заказы, чей объем превышает средний. Для этого существуют специальные фильтры.

Еще одна проблема заключается в расчете так называемого доверительного интервала. Она состоит в том, что такой расчет принято осуществлять с учетом нормального распределения (оно показано на графике слева). Вертикальная ось отображает количество посетителей, а горизонтальная – число заказов. На данном графике мы видим, что большинство посетителей заказывают в среднем 5 товаров. Более крупные или мелкие заказы случаются реже. На графике справа показана реальная ситуация с заказами в большинстве интернет-магазинов. Большая часть посетителей ничего не заказывает. Типичный клиент заказывает 1-2 товара.

нормального распределения

Средний коэффициент конверсии типичного интернет-магазина составляет 5%. Это означает, что около 95% посетителей сайта ничего не покупают.

В математической статистике это называется термином «скошенное вправо распределение». Оно оказывает существенное влияние на интервал доверия. По сути, в такой ситуации невозможно точно подсчитать этот показатель. Правильный расчет интервала доверия зависит от того, насколько полученные данные отклоняются от показателей нормального распределения.

Около 95% клиентов типичного интернет-магазина покидают сайт, не совершив покупку. В связи с этим, отклонение от нормального распределения получается невероятно большим.

Однако есть другие методы, благодаря которым можно получить достоверные результаты при распределении данных, отклоняющихся от нормального:

1. Расчет U-критерия Манна Уитни – это отличная альтернатива расчету доверительного интервала в случае, есть распределение данных значительно отклоняется от нормального;
2. Робастное оценивание – оно используется в тех случаях, когда данные распределены ненормально или искажены объемными заказами. Средние значения и переменные вычисляются так, словно они не подвержены влиянию нетипично высоких или низких показателей;
3. Бутстреппинг – метод определения статистик вероятностных распределений, основанный на многократной генерации псевдовыборок методом Монте-Карло на основе имеющейся выборки.

№9: Оценка отдельных сегментов

Углубленно изучать каждый из сегментов целевой аудитории – это хорошая идея. Однако, когда дело касается сплит-тестирования, отдельные группы клиентов ведут себя по-разному. Это, в свою очередь, никак не отображается в итоговых данных.

№9: Оценка отдельных сегментов

На графике показано разделение клиентов на выгодных и невыгодных. Вертикальная ось отображает изменения коэффициента конверсии, а горизонтальная – число клиентов, задействованных в тестировании.

В качестве примера может послужить так называемое уникальное предложение ценности, которое представляет собой совокупность черт, делающих конкретный интернет-магазин уникальным.

У любого интернет-магазина есть новые и текущие клиенты. «Завсегдатаи» уже знают все преимущества вашего товара или услуги. Уникальное предложение ценности помогает убедить новых клиентов совершить покупку. Эти два типа клиентов по-разному реагируют на это предложение, что не отображается в итоговых отчетах. В конце концов, вы можете быть разочарованы тем, что не замечаете существенного роста конверсии.

Если вы будете одновременно использовать программы для тестирования и другие источники данных (например, веб-аналитику), то вы сможете проанализировать результаты тестирования на предмет различных характеристик, которыми обладают ваши клиенты. Среди них можно выделить:

пол;
возраст;
предпочитаемые категории товаров;
часто посещаемые страницы;
поведение на сайте;
коэффициент возвратов;
местоположение.

Тем не менее, необходимо проявлять осторожность. Чем больше сегментов вы сравниваете друг с другом, тем выше вероятность возникновения ошибки.

Кроме того, вы должны убедиться в том, что эти сегменты достаточно велики. Если вы решили сосредоточить свое внимание только на посетителях женского пола, заходящих на сайт с планшета и совершающих покупки только по выходным, это приведет к тому, что вы будете анализировать лишь незначительную часть вашей аудитории. Из этого следует простой вывод: вы должны убедиться в том, что исследуемый вами сегмент включает достаточное число посетителей. К тому же, если вам заранее известно, что вы будете делать сегментацию результатов, то длительность тестирования должна быть как минимум в два раза больше.

№10: Выводы на основе результатов тестирования

После успешно проведенного сплит-теста специалисты начинают формировать прогнозы с учетом того, что в результате оптимизации сайта компания начнет получать дополнительную прибыль. В результате, менеджеры демонстрируют руководству яркие презентации, в которых указано, что, как показали результаты тестирования, доходы компании увеличатся на 40% в ближайшие два года.

Однако не стоит делать этого. Если кто-то сегодня скажет вам, что ровно через три месяца будет дождь, вы поверите в это? Вряд ли. Поэтому не стоит спешить с прогнозами на будущее. Этому есть несколько причин:

1. Краткосрочные и долговременные эффекты. Как правило, при помощи сплит-тестирования мы можем определить лишь те факторы, которые оказывают краткосрочный эффект на поведение посетителей сайта. К примеру, продолжительность теста составляет 3 недели, и вы наблюдаете увеличение коэффициента конверсии на Х%. Тем не менее, эти изменения ничего не говорят нам о долговременном поведении пользователей, а также о таких KPI, как уровень удовлетворенности и лояльность клиентов.

Чтобы определить факторы, оказывающие долговременный эффект на поведение потребителей, продолжительность тестирования должна быть намного больше. Также не следует забывать об эффекте новизны. Люди быстро привыкают к новшествам: то, что удивляет нас сегодня, завтра уже может превратиться в обыденность.

Таким образом, не следует следует полагать, что кратковременный эффект приобретет постоянный характер.

2. Причинно-следственная связь vs взаимозависимость. Предположим, что в результате сплит-тестирования вы получили существенное повышение коэффициента конверсии, поэтому вы решили внести протестированные изменения на свой сайт. Далее обычно происходит так называемое сравнение «до и после». Специалисты сравнивают коэффициент конверсии до внесения изменений с конверсией после этого. Обычно все ожидают, что эти два показателя будут соответствовать друг другу. Но зачастую этого не происходит.

Разумеется, внесенные изменения могут привести к увеличению конверсии. Тем не менее, не стоит забывать о сотнях прочих факторов, оказывающих влияние на этот показатель (например, сезонность, распродажи, появление новинок, сложности с доставкой и т.п.)

Очень важно усвоить разницу между причинно-следственной связью и взаимозависимостью. Последняя лишь представляет собой статистическую взаимосвязь двух и более величин. Тем не менее, взаимная зависимость не подразумевает никакой причинно-следственной связи между величинами.

Ниже представлен график, на котором отображена связь между увеличением расходов на науку, исследование космоса и технологии в США и ростом числа самоубийств. Очевидно, что одно не является прямым следствием другого.

интерпретация

Черным цветом отмечено число самоубийств, а красным – величина расходов на развитие науки.

3. Неправильная интерпретация коэффициента достоверности. Предположим, что в результате тестирования конверсия увеличилась на 4,5%, а уровень достоверности результата составил 98%. Это вовсе не означает, что конверсия вырастет на 4,5% с вероятностью 98%. В результате любого анализа коэффициента достоверности получается интервал, отображающий вероятное увеличение показателя.

Если взять описанный выше пример, то конверсия будет варьироваться в промежутке от 2% до 7% с вероятностью 98%. К тому же, чем дольше будет длиться тестирование, тем уже будет становиться данный интервал.

Создали лендинг пейдж и задумываетесь об оптимизации конверсии? Ознакомьтесь с нашей технологией по увеличению бизнес-показателей >>>

Высоких вам конверсий!

По материалам: conversionxl.com, image source: Steve Hopson 

27-06-2016

Практический online-курс

blog comments powered by Disqus
copyright © 2011–2017 by LPgenerator LLC. Все права защищены
Запрещено любое копирование материалов ресурса без письменного согласия владельца — ООО "ЛПгенератор".