5 типов «обманщиков-победителей» сплит-тестов

Многие маркетинговые агентства и компании делятся в интернете рассказами о выдающихся результатах проведенных ими сплит-тестов, но на практике почему-то демонстрируют совершенно иные и не вызывающие восторг цифры. В чем причина подобного недоразумения?

Как правило, во всем виноваты 5 типов «обманщиков-победителей», которые преувеличивают масштабы обнаруженного роста и могут несколько завысить ваши ожидания в отношении вводимых изменений. Вот какие они носят названия:

ложные победители;
анти-победители;
меняющиеся победители;
хитрые победители;
переоцененные победители.

Эти пять типов «победителей» сплит-тестов могут быть обнаружены в любом эксперименте. И ниже будет подробно описано, как и почему они становятся причиной завышенных ожиданий.

Содержание статьи

Типичный пример завышенных показателей

5 типов победителей, которые требуют корректировки бизнес-кейса

1. Ложные победители
2. Анти-победители
3. Меняющиеся победители
4. Хитрые победители
5. Переоцененные победители

Финальный расчет для DeFacto

Что вы можете сделать с ложными и переоцененными победителями?

1. Привлеките к работе подготовленных статистиков
2. Наймите бихевиориста/психолога
3. Создайте центр экспериментального опыта
4. Действуйте на основе информации о клиентах из первых рук

Заключение

Типичный пример завышенных показателей

Расчет «чистой прибыли» — это лучший способ оценить влияние первоначальных результатов, полученных от серии A/B-тестов.

Чтобы дать вам представление о разнице между «обнаруженным» и чистым» ростом, разберем все на примере вымышленной компании «DeFacto Ltd».

Представим, что отдел оптимизации этой компании:

за последние 12 месяцев провел 100 экспериментов;
были обнаружены 25 победителей, со средним ростом показателей в 6%, что в пересчете на доллары будет равняться дополнительным $100 000 дохода на победителя (вычисляется с помощью байесовского калькулятора с порогом >90%);
средняя стоимость эксперимента — $ 5 000 (100 часов x $50);
и — ради простоты восприятия — все эксперименты были проведены на надежных выборках, подчинялись правилам надежных экспериментов, а все победители были мгновенно имплементированы;
все испытания были проведены на достаточном объеме трафика, рост был значителен для такого рода тестов, поэтому будем считать, что мощность всех экспериментов была равна стандартным 80%.

В итоге, за счет внедрения всех 25 выигрышных вариантов компании удалось сгенерировать 2,5 млн. долларов дополнительной прибыли, потратив при этом на проведение тестов 500 000 долларов. Рентабельность инвестиций составила 500%, а валовая прибыль A /B-тестов DeFacto — 2 миллиона долларов.

Обратите внимание на то, что доход здесь обозначается термином «валовая прибыль». Но что произойдет, когда будет проведен пересчет результатов с учетом 5 типов победителей-обманщиков? Будет получена чистая прибыль DeFacto, та сумма, которую вы ожидаете получить в реальности: около 1 миллиона долларов, то есть только 50% валовой прибыли.

Рассмотрим пять типов преувеличивающих победителей, которые несут ответственность за такое значительное уменьшение суммы дохода. Начнем с самого простого и известного.

5 типов победителей, которые требуют корректировки бизнес-кейса

1. Ложные победители

Существование «ложных победителей» хорошо известно специалистам по оптимизации конверсии (их еще называют ложными срабатываниями или ошибками первого рода). Но при подготовке бизнес-кейсов они почему-то не берутся в расчет.

Ложным победителем считается тот вариант, когда он на самом деле ничего не меняет, и превосходит контрольный вариант чисто случайно. Например, рандомизация может привести к тому, что большее количество пользователей с относительно высоким намерением совершить покупку оказалось на тестовом лендинге, и это привело к более высокому коэффициенту конверсии.

Ожидается, что при пороге значимости в 90% это происходит с 10% всех претендентов. В случае с DeFacto можно рассчитать, что примерно 79% (!) претендентов не приносят никакого роста в реальности.

примерно 79% (!) претендентов не приносят никакого роста в реальности

Итак, сколько ложных победителей вы обнаружите, если 79% экспериментов не принесут никакого улучшения на практике? DeFacto провели 100 экспериментов, из которых 79 не имеют смысла. Ожидается, что в 10% из них победитель будет случайным (90% значимости). В результате получается 8 ложных победителей (31% от всех победителей), 17 истинных положительных результатов и 4 ложных отрицательных.

DeFacto провели 100 экспериментов, из которых 79 не имеют смысла.

Выявление ложных победителей имеет первостепенное значение для реалистичного бизнес-кейса. Проблема не в затратах. Восемь ложных победителей будут стоить вам «всего» 40 000 долларов. Более серьезная проблема заключается в том, что 31% этих «победителей» не произведут никакого роста на практике.

Существуют более надежные и продвинутые способы корректировки ложных победителей, но простое вычитание 31% ложных победителей из 2,5 миллионов долларов уже дает более реалистичную цифру — чуть более 1,2 миллиона долларов (61% от предполагаемых 2 миллионов долларов).

Эксперты в области CRO, как правило, осведомлены о существовании ложных победителей среди всех выигрышных вариантов. Следующим шагом является подсчет количества ложных победителей, которые ухудшают производительность сайта.

2. Анти-победители

Анти-победители — это некая демоническая разновидность рассмотренных выше ложных победителей. Это варианты-победители, которые на практике оказываются значимыми «лузерами». Вместо увеличения ваших показателей успеха внедренный вами «победитель» будет уменьшать их.

Подобный вариант может стать победителем по чистой случайности. И если такое происходит, это тотальное невезение. Официальный термин — «ошибка S-типа» (S от «Sign»), и они обычно случаются только при проведении маломощных экспериментов.

Если в случае ложного победителя вы просто теряете деньги на проведении эксперимента, то здесь вы теряете деньги и несете дополнительный ущерб в виде уменьшения дохода.

Анти-победители редко встречаются в A/B-тестах из-за их относительно высокого уровня мощности. При 80% мощности экспериментов DeFacto появление анти-победителей не ожидается вовсе.

Однако, если вы экспериментируете с очень низкими уровнями мощности — небольшими выборками, низкими коэффициентами конверсии и / или небольшими размерами эффектов — вам необходимо учесть этот тип победителей.

3. Меняющиеся победители

Третий тип победителей, который нужно учитывать, является самым трудным и носит название «меняющиеся победители». Такой победитель оказывает положительный эффект в краткосрочной перспективе (т.е. во время эксперимента), но имеет неприятные последствия в долгосрочной.

Долгосрочные эффекты в CRO-программах, как правило, не подвергаются измерениям. Эксперименты проводятся в течение заданного периода и занимают от 1 до 4 недель. После того как будет найден победитель, он демонстрируется всем и каждому, а возможность измерить оказываемым им долгосрочный эффект теряется.
Однако в поведенческих науках имеется достаточное количество фактических данных о вмешательствах, которые в краткосрочной перспективе приводят к подъему, а в долгосрочной перспективе — к обратному эффекту. Например, хорошо известный эффект обратной реакции — это когда вы перемещаете мотивацию ваших пользователей с «внутренней» на «внешнюю».

Внешние мотиваторы, вроде краткосрочных скидок, могут повысить уровень конверсии на ближайшее будущее, но не на более длительный период

Примерами «внешних» мотиваторов являются скидки, бесплатные дополнения или тактики геймификации. Эти внешние вознаграждения временно повышают мотивацию к совершению конверсионного действия и, таким образом, показывают рост показателей в A/B-тестах. Тем не менее, в долгосрочной перспективе они могут подорвать внутреннюю мотивацию и в конечном итоге привести к потерям.

Отслеживание физической активности — современный пример. Трекеры стремятся перевести вашу мотивацию с устойчивого внутреннего стремления быть активным к неустойчивому внешнему вознаграждению за то, что вы превосходите свои прежние показатели.

Практически невозможно определить, какие победители являются временными, а какие — постоянными. Вы, конечно, можете организовать долгосрочный мониторинг, но это очень дорого. Более простое решение — отправить CRO-команду на тренинг, посвященный вопросам краткосрочных и долгосрочных изменений поведения. Отказ от тестирования временных тактик может помочь вам избежать «меняющихся победителей».

4. Хитрые победители

Этот тип победителей менее известен, а их появление зависит от степени зрелости CRO-команды. Хитрый победитель — это эксперимент, в ходе которого победитель был выявлен только потому, что в пользу него были совершены некие ошибки.

Разница между «ложными победителями» и «хитрыми победителями» заключается в том, что ложный возникает, когда ваш претендент выигрывает случайно в заслуживающем доверия эксперименте. Хитрый победитель появляется из-за слабой надежности эксперимента.

Простой пример: в эксперименте из-за технической ошибки тестируемый лендинг получил больше повторных посетителей, чем контрольный вариант. Поскольку повторные посетители имеют более высокий коэффициент конверсии, претендент выигрывает. Он не является лучшим; просто он имел несправедливое преимущество. Этот типичный пример носит название «несоответствие коэффициента выборки» (SRM, sample ratio mismatch).

Другими распространенными причинами появления хитрых победителей являются эффекты взаимодействия и переноса:

Эффекты взаимодействия возникают, когда вариант побеждает, потому что группа также подверглась изменению в другом параллельном тесте.
Эффект переноса возникает, когда претендент побеждает, потому что одно или оба условия все еще «страдают» от последствий предыдущего эксперимента.

Эффект переноса может привести к тому, что прошлые эксперименты будут влиять на текущий. На графике выше видно, что эффект длится около 3 месяцев

Опытный специалист может предотвратить появление хитрых победителей, проверяя эти «несправедливые» эффекты. Предположим, что в DeFacto такой специалист имелся, и хитрых победителей не случилось.

5. Переоцененные победители

Последний тип победителей — «переоцененные победители». Официально они носят название ошибки типа М (от «величины», magnitude). Переоцененный победитель завышает величину роста показателя.

Эти ошибки случаются постоянно, в каждом эксперименте, как и ложные победители. Почему? В среднем, тесты с недооцененными увеличениями показателей менее вероятны для победы.

Вот пример: предположим, у вас есть хорошая идея, которая способна увеличить ваши показатели на 5% на практике. Если вы протестируете эту идею девять раз, то получите 9 разных вариантов роста показателей с равномерным разбросом около 5%. К сожалению, тесты, где рост показателя равен 1-2%, не являются значимыми. Остальные семь, которые фиксируют победителя, имеют более высокий средний рост, чем истинный. Это и есть переоцененные победители.

Увеличение мощности ваших экспериментов уменьшит вероятность появления такого рода «победителей».

Финальный расчет для DeFacto

После того, как во внимание будут приняты «ложные» и «переоцененные» победители, размер дополнительного дохода DeFacto составит примерно $1,5 млн.., а чистой прибыли от проведения A/B-тестирования — около $1 млн., то есть 50% от первоначальных $2 млн.

Не стоит забывать и о том, что другие типы «победителей» фактически не были учтены в расчетах, а они также способны весьма существенно уменьшить прибыльность проводимых тестов.

Некоторые компании довольствуются пороговыми значениями ниже 90% по Байесу. Это разумно, если вы статистически сбалансируете ценность выигрышных экспериментов и затраты на неубедительные.

Ваш порог отражает частоту появления «ложных победителей», который вы считаете приемлемым. Подумайте, сколько таких промахов вы готовы совершить, не забывая о том, что каждая реализация выигравшего варианта также влечет за собой дополнительные расходы.

Если бы DeFacto использовал 80% байесовский порог, причем все остальные показатели остались бы теми же (например, коэффициент победителей был равен 25%, отсутствие повторного тестирования победителей и т. д.), размер чистой прибыли снизился бы примерно до нуля. Возможно, что компания и вовсе ушла бы «в минус».

Что вы можете сделать с ложными и переоцененными победителями?

Самое главное — продолжать эксперименты. Повысьте достоверность всех проводимых испытаний и победителей, а затем начните правильно рассчитывать стоимость каждой программы тестирования.

Как только вы сделаете все это, то сможете масштабировать программу на основе реалистичного бизнес-кейса. Как это сделать?

1. Привлеките к работе подготовленных статистиков

Введите в штат профессиональных статистиков (или воспользуйтесь услугами сторонней фирмы). Они будут разрабатывать экспериментальные проекты и внедрять в вашу программу системы проверки качества и своевременных оповещений, которые обеспечат проведение более надежных опытов.

Когда они завершат эту часть работы, то смогут продолжить свою деятельность в области автоматизации более сложных этапов проверки и анализа.

2. Наймите бихевиориста/психолога

Наймите бихевиориста (или сразу нескольких), имеющего опыт в анализе изменений поведения и определении краткосрочных и долгосрочных последствий таких изменений.

3. Создайте центр экспериментального опыта

Когда вы распространите опыт проведения экспериментов по всей команде, лучше всего заняться построением экспериментального «центра передового опыта». Этот центр будет строить и развивать вашу внутреннюю экспериментальную платформу.

Зрелая платформа автоматизирует основные этапы статистических проверок и корректировок для масштабирования достоверных экспериментов на основе реалистичной оценки их (чистой) ценности. Между тем, команды экспериментаторов смогут увеличить скорость проведения экспериментов и анализа, не нуждаясь в приобретении статистических и поведенческих навыков.

4. Действуйте на основе информации о клиентах из первых рук

Если вы проводите много заслуживающих доверия экспериментов, подумайте о создании центра поведенческого интеллекта (или расширьте свой центр экспериментов).

Этот центр объединит всю информацию о клиентах, будет строить модели их поведения на основе мета-анализа данных испытаний и постоянно увеличивать долгосрочное влияние ваших проверок.

Заключение

Не проводить сплит-тесты хуже, чем переоценивать их значение. Проводить испытания нужно, но также необходимо повышать их достоверность. Не забывайте о 5 типах обманщиков-победителей, которые могут сильно завысить ваши ожидания от введения тех или иных изменений, и учитывайте их при расчете реальной ценности ваших экспериментов.

Продолжайте повышать качество и статистическую надежность сплит-тестов вместе с нами. Платформа LPgenerator позволяет настроить сплит-тест всего за несколько минут, вручную задать количество показов каждого варианта и отслеживать статистика результатов в центре Оптимизации конверсии.

Высоких вам конверсий!

По материалам conversionxl.com

13-06-2019