Мультивариантное тестирование Vs сплит-тесты: что лучше?

Ответить на вопрос, вынесенный в заглавие статьи, легко и сложно одновременно. С одной стороны, сплит-тесты по умолчанию подходят большинству маркетологов, и они гораздо более распространены при оптимизации конверсии.

Однако всегда остается место и для мультивариантных тестов (MVT), которые могут существенно увеличить ваши показатели и добавить ценности продукту. Но перед тем, как вдаваться в нюансы, кратко рассмотрим различия между подходами.

Что такое мультивариантное тестирование?

MVT — это, в некотором смысле, более сложная версия сплит-теста. Традиционные А/В-тесты довольно прямолинейны: маркетологи разрабатывают новую версию элемента и делят трафик пополам между контрольным (А) и проверяемым (В) вариантами.

А/В-тесты

Кроме того, сплит-тест позволяет проверить три и более вариации (A/B/n-тестирование). Например, если вы запускаете испытание на 5 версий, то на каждую из них придется по 20% трафика. Вот как выглядит A/B/C/D-тест:

A/B/C/D-тест

Сплит-тесты обычно содержат меньше вариаций, чем MVT, но с более радикальными изменениями. В то время как мультивариантные кампании запускаются на внушительное число версий, но с небольшими различиями.

Ларс Нильсен (Lars Nielson) из Sitecore описывает процесс так:

«Мультивариантное тестирование выступает против традиционных научных представлений. MVT — это процесс тестирования более одного компонента веб-сайта в реальной обстановке (контексте). По существу, это несколько A/B/n-тестов, запущенных одновременно на одной странице».

3 основных отличия сплит- и мультивариантного тестирования

Кейс по A/B/n-тестам

Так что же вам использовать: MVT или A/B/n? Если у вас достаточно трафика, то примените оба инструмента. Они равноценны по важности, хотя и служат несколько разным целям. Особенности сплит-тестирования:

Позволяют проверять более радикальные изменения в дизайне;
Занимают меньше времени, чем MVT;
Для каждого изменения можно установить инструменты аналитики и глубоко отслеживать их (например, активность мыши, телефонные звонки и т. д.);
Отдельные элементы взаимодействия могут быть использованы для изучения и формирования поведения аудитории (customer theory);
Сплит-тесты, как правило, приносят больше прибыли (так как вы чаще тестируете существенные изменения);
А/В-кампании быстрее показывают значительные результаты;
Так как разница между вариациями более радикальна, то легче определить, какая страница эффективнее.

Таким образом, сплит-тесты используют силу больших изменений, а не тонких, едва уловимых корректив, наподобие настройки оттенков цвета или формулирования заголовков, как это часто бывает в MVT. Большинство маркетологов обычно начинают работу с А/В-тестов, потому что с ними возможны быстрые и значительные успехи.

Янив Навот (Yaniv Navot), директор по интернет-маркетингу в Dynamic Yield, отметил, что MVT в основном используется для проверки небольших изменений. Он также сказал, что сплит-тесты лучше подходят для проверки ряда страниц и нескольких сценариев событий:

«Мультивариантное тестирование — это акцент на мелких элементах, слабо влияющих на остальные или не влияющих вовсе. Вместо этого маркетологи должны сосредоточиться на ведении программных и динамичных сплит-тестов, позволяющих получить сегментированный опыт нескольких целевых групп по всему сайту. Этого нельзя достигнуть через традиционные MVT-тесты».

Другой момент, вызывающий беспокойство при мультивариантном тестировании — объем трафика.

Насколько эффективны сплит-тесты для стартапа?

Как много трафика приходит к вам?

Из-за множества дополнительных вариаций MVT-тесты требуют большого объема трафика. Или, хотя бы, высокого коэффициента конверсии. Например, 3х2 тест (то есть, проверка 2 разных версий трех элементов дизайна) потребует такого же трафика, как и сплит-тест на 9 вариаций. Причем 3х2 — это типичный MVT-тест.

трафика

В полном факторном (full factorial) мультивариантном тестировании ваш трафик делится поровну между всеми комбинациями версий, что приумножает объемы трафика, необходимые для достижения статистической достоверности. Как говорит Леонид Пекелис (Leonid Pekelis) аналитик Optimizely, это повышает продолжительность тестов:

«Одно из важнейших требований: ваш MVT-тест должен продолжаться достаточно долго, чтобы получить много посещений и обнаружить максимум возможных нюансов взаимодействия».

Клэр Во (Claire Vo), сооснователь Experiment Engine, также утверждает, что MVT-тесты сложнее из-за дополнительного трафика и ресурсов, требующихся для них.

«Мультивариантное тестирование требует значительно больше инвестиций в технологии, дизайн, настройки, анализ данных. Кроме того, полнофакторный MVT-тест заберет огромную часть вашего трафика (даже если его объем внушителен и без того). Поэтому мультивариантные тесты станут большим испытанием для маркетингового бюджета — из-за времени, людей, ресурсов, и внутреннего обслуживания процесса».

Руководствуйтесь правилом: если ваш трафик меньше, чем 100 000 уникальных посетителей/месяц, то лучше запустите сплит-тестирование. Единственным исключением будет высокая конверсия лендингов и лидогенерирующих страниц (от 10 до 30%). Кроме того, если вы — стартап на ранней стадии, все еще работающий над customer development, то вам еще рано приступать к MVT. С вашими исходными данными и ресурсами не получится узнать много. А стремление успеть все и сразу не даст понять поведение целевой аудитории достаточно глубоко. Тем не менее, существует несколько отличных кейсов по мультивариантным тестам.

Как работают сплит-тесты: памятка для гуманитариев

Когда стоит использовать MVT-тест?

Такие тесты нужны для измерения эффектов взаимодействия (interaction effects) между разными независимыми элементами — это позволяет увидеть, какая комбинация работает лучше всего. Тон Весселинг (Ton Wesseling), основатель Testing Agency, говорит следующее:

«Когда использовать MVT? Есть только одна причина — когда вам нужно узнать детали взаимодействия. Сплит-тест с несколькими вариантами не даст добиться этого. Новый выигрышный заголовок может остаться незамеченным, потому что в фокусе теста — другой элемент. Если вы очень быстро хотите понять, какие элементы вашей страницы наиболее эффективны, проведите MVT с этими элементами — и без них».

Парас Чопра (Paras Chopra) из VWO заявил, что использует мультивариантное тестирование для оптимизации нескольких элементов, не ожидая при этом быстрых результатов. Скорее, постепенного улучшения тестируемых элементов:

«Я предпочел бы MVT при оптимизации с многочисленными переменными, но не надеясь на резкий рост показателей, ожидаемый в сплит-тестах. Думаю, правильный путь — это А/В-тесты для существенных изменений (например, радикальный редизайн). Сплит-тесты можно проводить с MVT для дальнейшей оптимизации заголовков, призывов к действию и т. д.»

Преимущества мультивариантного тестирования

MVT — прекрасный инструмент для последующей оптимизации победившего в сплит-тесте варианта. В то время как А/В не дает существенной информации о взаимодействии переменных на одной странице, MVT делает это. Так вы можете способствовать редизайну, увидев, в каких местах страницы различные элементы оказывают наибольшее влияние. Это особенно полезно при разработке дизайна лендингов. Например, данные о влиянии формы определенного элемента могут быть использованы в дальнейших кампаниях и на новых целевых страницах, даже если контекст элемента изменился.

Эндрю Андерсон (Andrew Anderson), руководитель департамента оптимизации в Malwarebytes, пояснил, что MVT используется для обнаружения самого влиятельного элемента на странице, а затем повышения его эффективности:

«Речь не про любопытство, мол «мы хотим увидеть, что будет с 3 вариантами текста, 4 изображениями и маленьким СТА». Вопрос в том, что важнее на странице: изображения, тексты или призывы к действию. И чтобы выяснить максимально влиятельный элемент в максимально выгодной позиции, вы проверяете десятки версий — и узнаете что-то важное.

Сплит-тесты никогда не смогут рассказать вам о значении элементов, а MVT смогут, если они правильно проведены. Анализ ANOVA, или дисперсионный анализ*, позволяет количественно выразить относительное влияние поведения одного фактора по отношению к другим».

Таким образом, благодаря мультивариантным тестам вы узнаете, какие элементы на ресурсе сыграют ключевую роль в достижении ваших целей.

Теперь пару слов об ANOVA. Дисперсионный анализ, или ANOVA, по определению Википедии: «метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях».

При сравнении двух образцов мы можем использовать t-тест*, но дисперсионный анализ применяется для сравнения средних значений большего количества образцов.

Преимущества мультивариантного тестирования

Глубже с концепцией дисперсионного анализа вы можете познакомиться в этом большом видео-гайде:

* t-критерий Стьюдента — общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках.

Но каковы условия и требования проведения успешных MVT-испытаний?

Сплит-тест заголовков: преимущества и недостатки

Как правильно провести мультивариантное тестирование?

Важнейшее условие запуска MVT: чем больше трафика, тем лучше. Таким образом, для максимальной точности при управлении тестом важно понимать потребности посетителей и избегать ложных срабатываний. Хотя многие из распространенных MVT-ошибок не являются уникальными для этого инструмента, все же мультивариантный тест придает им некоторую специфику. Но вы, наверняка, уже догадываетесь об этих огрехах:

Недостаточно трафика;

Не учитывается шанс повышения ложных срабатываний;
MVT не используется как способ обучения;
MVT не используется в рамках систематизированного подхода к оптимизации ресурса;

1. Недостаточно трафика

Мы не раз говорили это выше, но повторимся: MVT требует очень, очень и очень много трафика. Дробные факторные эксперименты могут смягчить это, но к точности данного метода есть вопросы.

Увеличение потребности в трафике также ставит вопрос о том, как долго вам следует проводить тест. Это особенно актуально, если вы пользуетесь MVT как игральными костями — запускаете и ждете, что же выпадет. Спойлер: такой подход неэффективен.

Вы обязательно должны оценить, как много трафика нужно для значительных результатов. Используйте специализированные калькуляторы, которые несложно найти в сети. Леонид Пекелис (Leonid Pekelis) из Optimizely говорит о способах обойти потребность в сумасшедших объемах трафика, включая дробный факторный метод, который мы обсудим ниже:

«Другой подход к сокращению потребности в посетителях при мультивариантном тесте — исследовать меньше взаимодействий (например, только двухсторонние взаимодействия). В этом помогут такие методы, как дробный факторный эксперимент. Вы можете довольно существенно снизить необходимость в посетителях, если используете дробный факторный подход вместо полнофакторного, но так вы увидите только часть общей интеракционной картины. Процесс усложняется довольно быстро, если вы изучаете различные методы проектирования.

Еще один вариант запуска MVT с небольшим трафиком: запустите полный факторный эксперимент, просто чтобы проверить, что ни одно из изменений не взаимодействует между собой в ущерб сайту. Вы поймете это довольно быстро, а затем перейдете к сплит-тестам и увидите, какие вариации показывают себя эффективнее».

Хотя Мэтт Гершофф, СЕО Conductrics, утверждает, что MVT не всегда требуют больше данных, чем связанный набор простых сплит-тестов, он также уточняет, что за то же самое число обработок, необходимых для оценки, и при аналогичных независимых предположениях, косвенно сделанных при запуске отдельных сплит-тестов, MVT потребует даже меньше данных. Он продолжает:

«Вне зависимости от типа теста, с которым вы решили работать, всегда есть два шага: сбор данных и анализ данных. Собирать данные в обоих случаях можно многомерным, или полнофакторным, способом, а затем анализировать данные, допуская отсутствие взаимодействий (основные эффекты) или их наличие (мы можем выбрать даже степень взаимодействия на основании размерности теста).

Сбор данных посредством полнофакторного проектирования — отличный метод, потому что мы можем проанализировать его с любой выбранной степенью взаимодействия, включая нулевую. Только стоимость, как минимум в цифровой среде, определяет то, что бы должны иметь больше ячеек в нашей базе данных для хранения всех комбинаций тестов. Если мы собираем данные дробным методом, наш анализ будет ограничен особенностями дробно-факторного подхода.

К несчастью, бесплатных завтраков не бывает. Многие, опасающиеся использовать основные эффекты MVT из-за недоверия к тестовым взаимодействиям, горячо рекомендуют запускать раздельные сплит-тесты, которые также косвенно предполагают отсутствие интеракционных эффектов (независимость) и требуют еще больше данных для оценки».

2. Не учитывается повышение вероятности ложных срабатываний

По словам Леонида, наиболее распространенная ошибка запущенных MV-тестов — игнорирование повышения вероятности ложных срабатываний. Ниже его мысли по этому поводу:

«По существу, стоит использовать отдельные сплит-тесты для каждой интеракции. Если вам необходимо измерить 20 взаимодействий, а коэффициент обнаружения ложных срабатываний составляет 5%, то вы будете ожидать около одного взаимодействия, которое обнаружится случайно. Существуют хорошие способы подсчета этого показателя, которые обычно требуют внесения в тесты несколько корректив, но опять же — вам, как правило, понадобится больше посетителей, чтобы получить убедительные результаты».

3. MVT не используется для обучения

Оптимизация, по существу, это сбор информации для принятия обоснованных решений. В этом контексте MVT прекрасно подходит как метод обучения. Использовать мультивариантные тесты для внесения постоянных изменений и проверки идей — неэффективно, долго, и гораздо больше подходит сплит-тестам. Эндрю Андерсон (Andrew Anderson) хорошо написал об этом в своей статье:

«Чем меньше вы потратите, чтобы прийти к результату, тем выше будет ROI. Чем быстрее вы двигаетесь, тем быстрее повысите ценность предложения и результативность программы. Но более важно следующее: сфокусируйтесь на мультивариантных тестах только как на методе обучения. MVT объяснит вам, куда направить ресурсы для максимальной отдачи. Он освободит вас от изучения альтернатив инвестирования ресурсов, отсеивая лишние факторы и оставляя лишь наиболее ценные и влиятельные варианты. Цель в том, чтобы получить результат, и для этой цели логичнее решиться на один большой шаг, чем делать множество мелких и неуверенных, но более простых шажков».

4. MVT не используется в рамках систематизированного подхода к оптимизации

Кроме того, многие MVT-ошибки исходят от людей, не представляющих четко, как им действовать, или имеющих предельно обобщенный план. Парас Чопра так выразился на этот счет:

«Самая большая ошибка — в незнании, чего ожидать от MVT. Маркетологи хотят найти лучшее сочетание изменений, или же узнать, какой элемент (заголовок, кнопка) оказывает максимальное воздействие?».

Эндрю Андерсон объясняет суть этой ошибки, говоря, что если вы используете сплит- или MV-тесты, чтобы просто понять, какие идеи работают, или проверить гипотезы, то это приведет лишь к персональному оптимуму (или удовлетворению эго). Продолжая свою мысль, Эндрю утверждает, что инструменты, используемые правильно для достижения максимальных результатов и максимального выделения ресурсов на будущие усилия, приводят к организационному и глобальному максимуму.

Выше мы уже упоминали, что существуют различные статистические методы проведения MVT, между которыми есть ряд различий. Разберемся, так ли это важно?

Как Альфа и Бета помогают улучшить сплит-тесты?

Полнофакторный, дробный факторный и прочие методы… в чем разница?

Существует несколько подходов к многовариантному тестированию:

Полнофакторный;
Дробный факторный;
Метод Тагучи.

Между этими приверженцами разных подходов существуют некоторые споры. Поговорим об этом.

Полнофакторный мультивариантный тест

Полный факторный эксперимент составляют два или более фактора, каждый из которых имеет дискретные возможные значения, или уровни, и чьи экспериментальные установки (единицы) включают в себя все возможные комбинации таких уровней по всем возможным факторам.

Или, по определению Википедии, это совокупность нескольких измерений, удовлетворяющих следующим условиям:

Количество измерений составляет 2n, где n — количество факторов;
Каждый фактор принимает только два значения — верхнее и нижнее;
В процессе измерения верхние и нижние значения факторов комбинируются во всех возможных сочетаниях.

Но не пугайтесь. Применительно к MVT этот термин можно расшифровать проще. Полнофакторный мультивариантный тест — проверка всех комбинаций с равным количеством трафика. Это означает, что:

Тест более основательный статистически;
Требует огромных объемов трафика;

Пару лет назад Парас Чопра написал статью об этом:

«Если у вас есть 16 комбинаций, каждая из них получит одну-шестнадцатую долю от всего трафика сайта. Поскольку каждая комбинация получает равный объем трафика, то данный метод вполне позволяет определить, какие конкретно комбинации работают наилучшим образом.

Например, вы можете обнаружить, что определенное изображение никак не повлияло на конверсию, а заголовок, напротив, оказался самым влиятельным элементом. Поскольку полнофакторный метод не делает допущений относительно статистики или математики тестирования, я рекомендую его для мультивариантных тестов».

Чему A/B тестирование научило нас в процессе оптимизации App Store

Дробный факторный мультивариантный тест

Дробные факторные конструкции — это «экспериментальные макеты, состоящие из тщательно выбранных подмножеств (фракций) экспериментальных запусков полнофакторных дизайнов».

Итак, дробный факторный тест — это набор образцов, отображающих значительное число комбинаций. Поэтому такие тесты требуют меньше трафика:

Дробный факторный мультивариантный тест

Хотя, в блоге Adobe дробный факторный дизайн был приравнен к барометру: «барометр измеряет атмосферное давление, но его ценность не столько в точном измерении показателя, сколько в уведомлении об изменениях направленности давления».

В той же статье было сказано:

«Вопрос в том, насколько рационально будет потратить 5 месяцев на проведение одного теста, чтобы понять то, что уже не может быть применимо к моменту завершения тестирования. Вместо этого, почему бы не потратить неделю на дробно-факторный эксперимент, после которого запустить другие тесты на основе полученных данных?»

Карты скроллинга для эффективного сплит-тестирования

Метод Тагучи

Данный метод кажется несколько более «эзотерическим», так что лучше не беспокоиться об этом. Как писал Парас в Smashing Magazine:

«Это совокупность эвристических методов, а не теоретически обоснованный подход. Первоначально он использовался в обрабатывающей промышленности, где были сделаны определенные допущения, чтобы уменьшить число комбинаций, необходимых для тестирования QA (обеспечение качества) и прочих экспериментов. Эти предположения неприменимы к онлайн-тестам, так что вам не стоит задумываться о методе Тагучи. Придерживайтесь других подходов».

Так ли это важно?

Как уже упоминалось выше, большинство дискуссий сводится к трудностям анализа дробно-факторного метода. Многие оптимизаторы открыто советуют придерживаться полнофакторных тестов. Как объясняет Парас: «Множество «дробно-факторных» методов в действительности псевдонаучны, поэтому я бы рекомендовал полно-факторный подход».

Тем не менее, другие маркетологи, как Эндрю Андерсон, считают, что эти дебаты ошибочны:

«Споры о том, что лучше: дробно- или полнофакторный тест, в настоящий момент бесполезны. Просто потому, что вы спорите над оттенками зеленого цвета в огромном лесу. MVT следует использовать для поиска точек влияния и применения будущих ресурсов. В этом случае мультивариантное тестирование — просто вопрос соответствия и доступности данных. Любое другое применение данного формата тестирования бесполезно, неэффективно и только подчеркивает отсутствие дисциплины и понимания сути оптимизации».

Так ли это критично на самом деле? Трудно сказать — мнения профессиональных и широко известных маркетологов разделились. Но если у вас хватает трафика, то полнофакторный тест точно не навредит ресурсу. А когда вы хотите принять бизнес-решение, критичное по времени и не предполагающее шестимесячные эксперименты, то вам наверняка подойдет дробно-факторный подход. Пусть при некотором недостатке точности, но он поможет проанализировать ситуацию и найти оптимальное решение.

Просто помните, что сплит-тестирование полезно для быстрой проверки «точечных» изменений на лендинге, а MVT сводится к проверке одновременных корректив, внесенных в несколько элементов ресурса. Изменяемые элементы в процессе комбинируются в различных вариантах. Для проведения мультивариантного тестирования, как уже говорилось множество раз, вам необходимо огромное количество трафика и временных ресурсов. Если все еще сомневаетесь, Кори Эридон (Corey Eridon) рекомендует следующий порядок применения этих двух методик:

«A/B-тестирование — лучший метод для быстрого получения значимых результатов при скудном трафике. Самое главное, что вы сможете отдавать себе отчет, какое из произведенных вами изменений привело к повышению конверсии. Для проведения мультивариантного тестирования вам нужно много всего: и времени, и трафика. Однако этот метод позволяет вам неспешно осуществить тонкую настройку лендинг пейдж».

Методология оптимизации конверсии, основанная на дисциплине

Вместо заключения

Если у вас достаточно трафика, лучшим вариантом будет использовать два подхода в комплексе. Каждый из них окажет различное влияние на вашу стратегию оптимизации. Каждый из них имеет специфику, рассмотренную выше. Используя оба типа тестов вместе, вы получите максимальную отдачу от своего ресурса. Действуйте следующим образом:

1. Используйте сплит-тесты для определения лучших макетов.

2. Запустите мультивариантное тестирование для «шлифовки» макетов. Убедитесь, что все элементы взаимодействуют между собой наилучшим образом.

Как было сказано выше, пока у вас нет огромных объемов трафика, даже задумываться о мультивариантных тестах преждевременно. Посредством сплит-тестов проверьте основные элементы, такие как акцент на ценностном предложении, макет страницы (баланс текста и изображения), длина строк текста, общее восприятие и визуальная привлекательность страницы. Это, вероятно, займет всего 2-4 раунда тестов. А после определения общей картины вы можете протестировать взаимодействие элементов через мультивариантный эксперимент.

Главное, убедитесь, что ваши приоритеты и ваша программа тестирования совпадают. Как однажды сказал Пип Лайа: «Большинство ТОП-агентств, с которыми я общался, запускают 10 сплит-тестов на один MVT».

Высоких вам конверсий!

По материалам: conversionxl.com

14-07-2016