Книга: Игра в цифры. Как аналитика позволяет видеоиграм жить лучше
Назад: Что такое data driven-культура?
Дальше: Подготовка выборки

A/B-тесты в играх

Я уже говорил, что важной особенностью и даже задачей аналитика является необходимость сомневаться. На самом деле мы не так много знаем (кстати, да, я говорил, что аналитики – чаще всего агностики?). Наши предположения и гипотезы всегда субъективны, и нам нужен инструмент их проверки на объективность. Прекрасным инструментом являются A/B-тесты.

Что вообще такое A/B-тест? Это последовательность действий, при которой разным группам пользователей показываются разные, слегка измененные версии игры. После чего (через некоторое время) замеряется, какая из групп пользователей сработала лучше, и на основании этого принимается решение, какая из версий затем станет доступна всем пользователям игры. Звучит достаточно просто, однако в этом деле существует очень – даже слишком – много нюансов, и о некоторых из них я расскажу.

A/B-тест – это фиксированная последовательность шагов, и я бы выделил следующие основные этапы.



1. Идея эксперимента.

2. Генерация вариантов.

3. Подготовка выборки.

4. Выбор метрик.

5. Предварительное тестирование.

6. Непосредственно эксперимент.

7. Интерпретация результатов.



Давайте отдельно пройдемся по каждому.

Идея эксперимента: что меняем?

Менять, вообще говоря, можно любой функционал в игре. Это могут быть формы с предлагаемыми скидками («Купи сейчас!» или «Сейчас купи!»), это могут быть картинки и тексты уведомлений, это могут быть различные призывы к действию (call to action), описания предметов и товаров, внешний вид внутриигрового магазина, игровой туториал, сложность уровня – что угодно. Чуть реже A/B-тесты делают, меняя монетизационные показатели, допустим, цены и размеры скидок на товары. Всегда существует риск, что при смене монетизационных условий для разных пользователей те могут счесть это дискриминацией и, во-первых, существенно подпортить репутацию игре (например, понизить ее рейтинг в магазине), а во-вторых, чисто статистически сделать тест менее достоверным.

Вам знакома игра Angry Birds 2?

Ее сделала финская компания Rovio на волне успеха после первой Angry Birds. Готовя Angry Birds 2 к запуску, Rovio A/B-тестировали несколько гипотез.



1. Когда в Google Play или AppStore вы открываете страничку с Angry Birds 2, чтоб скачать игру, вы можете увидеть скриншоты. Что лучше располагать на этих скриншотах – полюбившихся с первой части персонажей, взятых крупным планом, или же непосредственно процесс геймплея (например, летящую птицу)?

2. А скриншоты должны быть горизонтальными или вертикальными? Обычно по умолчанию человек держит телефон в руке вертикально, и в магазине приложений он скорее всего находится в вертикальном режиме. С другой стороны, игра Angry Birds 2 ориентирована горизонтально. Так вот, как лучше (даже такие мелочи важны, потому что могут существенно повлиять на конверсию в скачивание приложения)?



Я не знаю точных результатов их экспериментов, но на момент написания книги могу констатировать: на картинках есть геймплей, а не персонажи, и картинки ориентированы горизонтально.

Еще один тест. Один (неигровой) сервис тестировал форму регистрации. На одном из вариантов просто были стандартные поля для заполнения, на другом была еще и призванная успокоить пользователя фраза „100 % privacy – we will never spam you“

(«100 % конфиденциальность – мы никогда не будем вас спамить»). Как вы думаете, какая из форм дала лучшую конверсию в регистрацию? Первая!

Видимо, пользователи, видя слово spam, в страхе покидали форму регистрации раньше, чем замечали слово never (никогда).

В итоге потребовался еще один A/B-тест, и победителем стала вариация формы регистрации, где был следующий текст: „We guarantee 100 % privacy. Your information will not be shared“ («Мы гарантируем 100 % конфиденциальность. Ваша информация никуда не утечет»).

И еще один пример. Представьте, что вы хотите протестировать гипотезу, важна ли игрокам скорость работы вашей игры. Станут ли они лучше платить, если игра будет быстрее? Чтобы проверить это напрямую, потребуется потратить немало времени на ускорение приложения; ускорение касается работы самого приложения, скорости связи с сервером, контакта к базе данных и т. д. Ускорить игру – процесс трудоемкий. Как же проверить нашу гипотезу?

А можно провести так называемый ухудшающий A/B-тест, и для части пользователей сделать игру не быстрее, а, наоборот, медленнее. И если мы увидим, что медленный вариант действительно работает хуже, вот тогда есть смысл вкладывать ресурсы в ускорение игры.

Итого чаще всего меняются следующие элементы игры:



– ASO (как приложение размещено в магазине приложений);

– визуальное оформление;

– призывы к действию (call to action);

– FTUE (первая сессия);

– описания и тексты;

– реклама (где и в какой момент всплывает в игре рекламное сообщение);

– Push-уведомления и тайминг (когда присылать уведомления игроку и с каким текстом);

– цены и акции;

– экраны покупки и магазин.

Генерация вариантов

Сколько может быть вариантов в A/B-тесте? По определению теста – вроде как два, группа A и группа B. На самом же деле вариантов может быть сколько угодно.

Допустим, вы хотите проверить две гипотезы сразу: сравнить красную и зеленую кнопки покупки, а также два вида продающего текста. Как нам запускать эти тесты, говоря языком физики: параллельно или последовательно?

Некоторые сначала выберут цвет кнопки, а лишь потом, зафиксировав цвет-победитель, пойдут искать лучший из двух вариантов продающего текста.

Я же предлагаю запустить сразу два теста, в одно и то же время. У нас есть два варианта кнопки и два варианта текста. Мы перемножаем одно на другое и получаем 4 группы для теста. Такой подход называется мультивариантным тестированием.

Плюс такого подхода – мы экономим время на тест. Минус – в каждую из групп попадет меньше людей, и нам будет несколько труднее достигать статистической значимости. Поэтому я рекомендую при небольшом числе вариантов не стесняться прибегать к мультивариантному тестированию. Ну а если у вас 10 вариантов на первый тест и 10 вариантов на второй, то, перемножив их, мы получим 100, и лучше такие тесты не делать, а запустить сначала один, а потом второй тест.

Назад: Что такое data driven-культура?
Дальше: Подготовка выборки