Взлом роста: внедрение и применение мобильного ABTest в приложении Alipay

|Введение

В последние годы, с бурным развитием Интернета, Growth-Hacking стал очень распространенной концепцией. Цель взлома роста — использовать меньшую и более гибкую стоимость, чтобы раскрыть тайну роста продукта с помощью данных. В то же время в модели AARRR необходимо создать процесс непрерывного тонкого цикла, необходимо выявить корреляцию между функциями продукта, стратегиями работы и преобразованиями из анализа данных и подумать о причинно-следственной связи между ними.

One accurate measurement is worth more than a thousand expert opinions

- Адмирал Грейс Хоппер

Как измерить правильность мышления и новаторские идеи? Данные — лучшая мера, которая требует от нас использования некоторых инструментов. AB-тест — это быстрый метод проб и ошибок, влияние пользователя минимально, и инструмент для принятия решений посредством науки о данных, это один из самых основных и важных инструментов Growth-Hacking.

С тех пор как в 2000 году инженеры Google применили ABTest к интернет-продуктам, A/B-тестирование становилось все более и более популярным в стране и за рубежом и постепенно становилось важным проявлением интернет-продуктов, управляемых данными. Б тестирование.

Что такое АБТест

A/B-тестирование основано на данных и может обеспечить гибкую сегментацию трафика, так что разные версии одного и того же продукта могут быть онлайн одновременно.Записывая и анализируя данные о поведении, созданные пользователями для разных версий, можно сравнивать результаты. и результаты могут быть гарантированы в наибольшей степени научными и точными, чтобы помочь людям принимать решения о научных продуктах.

Основные компоненты ABTest

На следующем рисунке показан общий архитектурный проект:

Вся архитектура состоит из следующих частей:

Платформа управления тестированием AB: Портал управления экспериментами, позволяющий создавать, изменять, закрывать эксперименты и т. д., а также просматривать отчеты.
база данных конфигурации: Данные экспериментальной конфигурации, ограниченные не только обычными реляционными базами данных, но и кэшированными базами данных.
сортировочная служба: Согласно данным экспериментальной конфигурации, конкретная логика распространения эксперимента обычно интегрирована в каждую бизнес-платформу или бизнес-сервер.
SDK: обеспечивает общую логику синтаксического анализа и шунтирования, которая обычно интегрирована в клиент и внешний интерфейс.
сбор информации: журналы результатов переадресации, сбор журналов поведения пользователей в режиме реального времени.
анализ данных: Анализ данных в режиме реального времени и в автономном режиме, принятие научных решений с помощью определенных алгоритмов анализа данных.

Статистические принципы ABTest

С точки зрения экспериментального принципа A/B-теста, это форма проверки статистической гипотезы (проверка значимости): проверка параметров в проверке гипотезы заключается в том, чтобы сначала выдвинуть определенную гипотезу о параметрах населения, а затем использовать выборочные данные для суждения Процесс выдвижения предположений.

Логически используйте метод доказательства от противного, а статистически опирайтесь на идею малой вероятности:

Мышление малой вероятностиОтносится к маловероятному событию (уровень значимости p
доказательство от противногоЭто означает сначала выдвинуть гипотезу, а затем с помощью соответствующих статистических методов определить возможность гипотезы; если возможность мала, гипотеза считается несостоятельной.

Применительно к сравнительному тесту предполагается, что общие параметры тестовой версии (среднее значение показателей оптимизации) равны общим параметрам контрольной версии, а затем используют выборочные данные этих двух версий, чтобы определить, соответствует ли это предположение правда.

Основные концепции проверки гипотез

Нулевая гипотеза: также известная как нулевая гипотеза, H0, обычно мы предполагаем, что статистические значения двух групп статистики в сравнительном эксперименте одинаковы, то есть среднее значение экспериментальной группы равно среднему значению контрольная группа.
Альтернативная гипотеза: выдвигается и противоположная гипотеза, то есть нулевая гипотеза отвергается; среднее значение экспериментальной группы не равно среднему значению контрольной группы.
Двусторонний тест и односторонний тест: если альтернативная гипотеза не имеет определенного направления, то есть «≠», это двусторонняя гипотеза. Если есть конкретное направление, содержащее «>» или «
Тестовая статистика: Статистика, которая используется при проверке гипотезы, называется тестовой статистикой, например, среднее значение группы выборки.
Рецептивное поле: область, в которой эти образцы (X1, X2,..., Xn) принимаются нулевой гипотезой.
Отрицательный домен: область выборок, которые отвергают нулевую гипотезу.
Простая гипотеза и сложная гипотеза: будь то нулевая гипотеза или альтернативная гипотеза, это простая гипотеза, которая содержит только один параметр, в противном случае это сложная гипотеза.

два типа ошибок

Ошибка типа I (ошибка отклонения): отклонить нулевую гипотезу, когда нулевая гипотеза верна; вероятность ошибки типа I записывается как α (альфа).
Ошибка типа II (ложная ошибка): нулевая гипотеза не отвергается, если нулевая гипотеза ложна. Вероятность ошибки типа II обозначается β (бета).

Реальная ситуация\фактическое решение	принять H0	отклонить H0
H0 верно	правильное суждение	ошибка 1 типа
H1 верно	Тип II Ошибка	правильное суждение

Степенная функция: пусть R обозначает область отклонения теста,

Уровни значимости и статистическая мощность

уровень значимости: Уровень значимости относится к вероятности или риску отклонения, когда нулевая гипотеза верна, то есть к вероятности α ошибки первого рода. Обычно в тесте AB мы устанавливаем уровень значимости 0,05, когда полученное p-значение p0,05, то нулевая гипотеза не может быть отвергнута.

mPaaS ABTest

Навыки анализа

Возможности анализа включают раздельную статистику PV/UV в режиме реального времени, отчеты о значимости экспериментов T+1, а также многомерный анализ и сравнительный анализ.

Экспериментальные данные разгрузки делятся на два типа: разгрузка скрытых точек на стороне клиента и журналы разгрузки ABTest SDK на стороне сервера, которые собираются в HDFS через шлюз журналов и лоток соответственно. Статистика экспериментальных эффектов возвращается в HDFS через шлюз журналов и поток через пользовательскую точку отслеживания событий, которая поставляется с SDK клиента mPaaS.

ссылка для вычислений в реальном времени

Данные импортируются в Kepler через Kafka, и задача kepler выполняет двухпотоковое соединение журнала разгрузки и журнала преобразования бизнеса, а также экспериментальной статистики PUV и, наконец, выгружает результаты вычислений в HBase, а консоль ABTest отображает результаты.

ссылка для офлайн-вычислений

Данные импортируются в HDFS через flume, а офлайн-вычислительная платформа выполняет расчет офлайн-показателей и синхронизацию метаданных и результатов ABTest.Данные возвращаются в Hbase, а консоль ABTest отображает результаты. Офлайн-ссылки используются для расчета корыстных отчетов о значимости, сохранены пользовательские индикаторы и другие сценарии с большим объемом вычислений.

Мгновенный анализ ссылок

Автономная ссылка также возвращает некоторые предварительно обработанные данные в проводник системы LDAP, который консоль ABTest использует для более гибкого многомерного анализа и анализа воронки.

Система расчета индекса мПаас

Определяемые пользователем события используются для отслеживания поведения пользователей клиентов mPaaS.Пользователям нужно только связать определенные пользовательские события, чтобы автоматически генерировать данные экспериментального статистического эффекта T+1. Рассматривая каждого пользователя как независимого экспериментального индивида, мы считаем, что поведение между двумя пользователями независимо, и каждое поведение пользователя во время эксперимента коррелирует, и статистический анализ выполняется для всех поведений пользователей во время эксперимента.

Для показателей, отличных от суммы и подсчета, мы выполним интервальную оценку (рассчитаем доверительный интервал статистики индикатора, доверительный интервал абсолютной разницы и доверительный интервал относительной разницы сравнения между экспериментальными схемами) и рассчитаем p-значение на основе на проверочной гипотезе дать значимое статистическое заключение.

Глобальные показатели

В качестве основных экспериментальных показателей отклонения используется количество людей, входящих в каждую схему (кумулятивный UV) и количество раз (кумулятивный PV) в течение эксперимента; еще одна часть глобальных показателей — показатель удержания, который запускается при входе пользователя в эксперимент в первый раз и активен на второй день Удержание на следующий день и т. д., мы можем рассчитать удержание 2, 3, ..., 7 дней и т. д.

простой индикатор

Простой индикатор состоит из одного пользовательского события.После того как пользователь настроит пользовательское событие, будет автоматически сгенерирован соответствующий экспериментальный индикатор: включая общее количество PV (количество сработавших событий), общее количество UV (общее количество пользователей, инициированных событием), и коэффициент конверсии UV (процент пользователей, которые инициировали пользовательское событие среди экспериментальных пользователей), среднее значение (общее количество триггеров/количество пользователей, вошедших в экспериментальную программу).

составной индикатор

Составные индикаторы используются для расчета связанных статистических эффектов нескольких пользовательских событий. Базовые операции над наборами включают пересечение, вычитание и деление. Мы также поддерживаем эти четыре операции в составных индикаторах. Здесь мы берем два пользовательских события E1, E2 в качестве примера:

И (Е1+Е2): указывает, что до тех пор, пока происходит E1 или E2, считается, что пользователь инициировал событие (E1+E2), тогда общее количество инициированных событий равно общему количеству инициированных E1 + общее количество инициированных E2, а расчет других сопутствующих индикаторов можно рассматривать как индикаторы простого типа для обработки.

Крест (Е1*Е2): указывает, что пользователь запустил и E1, и E2. Мы можем посмотреть на это на основе одного сеанса, так что общее количество триггеров событий равно общему количеству сеансов, которые запустили и E1, и E2, что также может быть равно 1 на по умолчанию (в настоящее время mPaaS напрямую считает 1, то есть для расчета пересечения мы в основном смотрим на преобразование UV), а расчет других сопутствующих индикаторов можно рассматривать как простой индикатор для обработки.

Плохо (E1-E2): указывает, что пользователь запускает E1, но не запускает E2.Общее количество инициированных событий – это общее количество раз, когда пользователь, отвечающий условию, запускает E1.Расчет других связанных индикаторов можно рассматривать как простой индикатор.

Разделить (E1/E2): это событие-конверсия. Самый простой пример: событие E1 представляет собой нажатие кнопки, а событие E2 — нажатие кнопки. Тогда коэффициент конверсии pv равен сумме (E1)/сумме (E2), т. е. pv -ctr, Тот же калибр среднего коэффициента конверсии УФ тоже понятен. Также взяв в качестве примера экспонированные клики, при расчете дисперсии фактического pv-ctr мы обнаружили, что на самом деле существует корреляция между несколькими экспозициями пользователя.Затем при расчете фактической дисперсии мы используем разложение Тейлора и ко- корреляции коэффициентов Е1 и Е2, оптимизируется формула дисперсии:

Предполагая, что x1,x2,...xn — это количество кликов на пользователя, а y1,y2,...,yn — количество экспозиций на пользователя, тогда

Выше приведено краткое изложение анализа конкретной технической архитектуры мобильного ABTest и того, как его реализовать в Alipay. Если вы заинтересованы в ABTest, вы можете уделить больше внимания последующим статьям и итеративным обновлениям продукта mPaaS.

Читать в прошлом

«Начало | Обзор системы основных компонентов сервера mPaaS компании Ant Financial»

«Основные компоненты сервера Ant Financial mPaaS: анализ архитектуры сквозного доступа к мобильной сети в условиях параллелизма на уровне миллиардов»

«Основные компоненты mPaaS: как Alipay создает систему анализа общественного мнения для мобильных продуктов? 》

«Основные компоненты сервера mPaaS: анализ архитектуры службы мобильного анализа MAS»

«Проект системы компонентов Ant Financial для 100 миллионов одновременных сценариев»

«Эволюция автоматизированного сбора и анализа журналов в приложении Alipay»

Подпишитесь на нашу официальную учетную запись, чтобы ознакомиться с технологией mPaaS из первых рук.

Группа Dingding: номер группы поиска «23124039» через Dingding

С нетерпением жду вашего присоединения ~