|Введение
В последние годы, с бурным развитием Интернета, Growth-Hacking стал очень распространенной концепцией. Цель взлома роста — использовать меньшую и более гибкую стоимость, чтобы раскрыть тайну роста продукта с помощью данных. В то же время в модели AARRR необходимо создать процесс непрерывного тонкого цикла, необходимо выявить корреляцию между функциями продукта, стратегиями работы и преобразованиями из анализа данных и подумать о причинно-следственной связи между ними.
One accurate measurement is worth more than a thousand expert opinions
- Адмирал Грейс Хоппер
Как измерить правильность мышления и новаторские идеи? Данные — лучшая мера, которая требует от нас использования некоторых инструментов. AB-тест — это быстрый метод проб и ошибок, влияние пользователя минимально, и инструмент для принятия решений посредством науки о данных, это один из самых основных и важных инструментов Growth-Hacking.
С тех пор как в 2000 году инженеры Google применили ABTest к интернет-продуктам, A/B-тестирование становилось все более и более популярным в стране и за рубежом и постепенно становилось важным проявлением интернет-продуктов, управляемых данными. Б тестирование.
Что такое АБТест
A/B-тестирование основано на данных и может обеспечить гибкую сегментацию трафика, так что разные версии одного и того же продукта могут быть онлайн одновременно.Записывая и анализируя данные о поведении, созданные пользователями для разных версий, можно сравнивать результаты. и результаты могут быть гарантированы в наибольшей степени научными и точными, чтобы помочь людям принимать решения о научных продуктах.
Основные компоненты ABTest
На следующем рисунке показан общий архитектурный проект:
Вся архитектура состоит из следующих частей:
- Платформа управления тестированием AB: Портал управления экспериментами, позволяющий создавать, изменять, закрывать эксперименты и т. д., а также просматривать отчеты.
- база данных конфигурации: Данные экспериментальной конфигурации, ограниченные не только обычными реляционными базами данных, но и кэшированными базами данных.
- сортировочная служба: Согласно данным экспериментальной конфигурации, конкретная логика распространения эксперимента обычно интегрирована в каждую бизнес-платформу или бизнес-сервер.
- SDK: обеспечивает общую логику синтаксического анализа и шунтирования, которая обычно интегрирована в клиент и внешний интерфейс.
- сбор информации: журналы результатов переадресации, сбор журналов поведения пользователей в режиме реального времени.
- анализ данных: Анализ данных в режиме реального времени и в автономном режиме, принятие научных решений с помощью определенных алгоритмов анализа данных.
Статистические принципы ABTest
С точки зрения экспериментального принципа A/B-теста, это форма проверки статистической гипотезы (проверка значимости): проверка параметров в проверке гипотезы заключается в том, чтобы сначала выдвинуть определенную гипотезу о параметрах населения, а затем использовать выборочные данные для суждения Процесс выдвижения предположений.
Логически используйте метод доказательства от противного, а статистически опирайтесь на идею малой вероятности:
- Мышление малой вероятностиОтносится к маловероятному событию (уровень значимости p
- доказательство от противногоЭто означает сначала выдвинуть гипотезу, а затем с помощью соответствующих статистических методов определить возможность гипотезы; если возможность мала, гипотеза считается несостоятельной.
Применительно к сравнительному тесту предполагается, что общие параметры тестовой версии (среднее значение показателей оптимизации) равны общим параметрам контрольной версии, а затем используют выборочные данные этих двух версий, чтобы определить, соответствует ли это предположение правда.
Основные концепции проверки гипотез
- Нулевая гипотеза: также известная как нулевая гипотеза, H0, обычно мы предполагаем, что статистические значения двух групп статистики в сравнительном эксперименте одинаковы, то есть среднее значение экспериментальной группы равно среднему значению контрольная группа.
- Альтернативная гипотеза: выдвигается и противоположная гипотеза, то есть нулевая гипотеза отвергается; среднее значение экспериментальной группы не равно среднему значению контрольной группы.
- Двусторонний тест и односторонний тест: если альтернативная гипотеза не имеет определенного направления, то есть «≠», это двусторонняя гипотеза. Если есть конкретное направление, содержащее «>» или «
- Тестовая статистика: Статистика, которая используется при проверке гипотезы, называется тестовой статистикой, например, среднее значение группы выборки.
- Рецептивное поле: область, в которой эти образцы (X1, X2,..., Xn) принимаются нулевой гипотезой.
- Отрицательный домен: область выборок, которые отвергают нулевую гипотезу.
- Простая гипотеза и сложная гипотеза: будь то нулевая гипотеза или альтернативная гипотеза, это простая гипотеза, которая содержит только один параметр, в противном случае это сложная гипотеза.
два типа ошибок
- Ошибка типа I (ошибка отклонения): отклонить нулевую гипотезу, когда нулевая гипотеза верна; вероятность ошибки типа I записывается как α (альфа).
- Ошибка типа II (ложная ошибка): нулевая гипотеза не отвергается, если нулевая гипотеза ложна. Вероятность ошибки типа II обозначается β (бета).
Реальная ситуация\фактическое решение | принять H0 | отклонить H0 |
---|---|---|
H0 верно | правильное суждение | ошибка 1 типа |
H1 верно | Тип II Ошибка | правильное суждение |
- Степенная функция: пусть R обозначает область отклонения теста,
Уровни значимости и статистическая мощность
- уровень значимости: Уровень значимости относится к вероятности или риску отклонения, когда нулевая гипотеза верна, то есть к вероятности α ошибки первого рода. Обычно в тесте AB мы устанавливаем уровень значимости 0,05, когда полученное p-значение p0,05, то нулевая гипотеза не может быть отвергнута.
mPaaS ABTest
Навыки анализа
Возможности анализа включают раздельную статистику PV/UV в режиме реального времени, отчеты о значимости экспериментов T+1, а также многомерный анализ и сравнительный анализ.
Экспериментальные данные разгрузки делятся на два типа: разгрузка скрытых точек на стороне клиента и журналы разгрузки ABTest SDK на стороне сервера, которые собираются в HDFS через шлюз журналов и лоток соответственно. Статистика экспериментальных эффектов возвращается в HDFS через шлюз журналов и поток через пользовательскую точку отслеживания событий, которая поставляется с SDK клиента mPaaS.
- ссылка для вычислений в реальном времени
Данные импортируются в Kepler через Kafka, и задача kepler выполняет двухпотоковое соединение журнала разгрузки и журнала преобразования бизнеса, а также экспериментальной статистики PUV и, наконец, выгружает результаты вычислений в HBase, а консоль ABTest отображает результаты.
- ссылка для офлайн-вычислений
Данные импортируются в HDFS через flume, а офлайн-вычислительная платформа выполняет расчет офлайн-показателей и синхронизацию метаданных и результатов ABTest.Данные возвращаются в Hbase, а консоль ABTest отображает результаты. Офлайн-ссылки используются для расчета корыстных отчетов о значимости, сохранены пользовательские индикаторы и другие сценарии с большим объемом вычислений.
- Мгновенный анализ ссылок
Автономная ссылка также возвращает некоторые предварительно обработанные данные в проводник системы LDAP, который консоль ABTest использует для более гибкого многомерного анализа и анализа воронки.
Система расчета индекса мПаас
Определяемые пользователем события используются для отслеживания поведения пользователей клиентов mPaaS.Пользователям нужно только связать определенные пользовательские события, чтобы автоматически генерировать данные экспериментального статистического эффекта T+1. Рассматривая каждого пользователя как независимого экспериментального индивида, мы считаем, что поведение между двумя пользователями независимо, и каждое поведение пользователя во время эксперимента коррелирует, и статистический анализ выполняется для всех поведений пользователей во время эксперимента.
Для показателей, отличных от суммы и подсчета, мы выполним интервальную оценку (рассчитаем доверительный интервал статистики индикатора, доверительный интервал абсолютной разницы и доверительный интервал относительной разницы сравнения между экспериментальными схемами) и рассчитаем p-значение на основе на проверочной гипотезе дать значимое статистическое заключение.
- Глобальные показатели
В качестве основных экспериментальных показателей отклонения используется количество людей, входящих в каждую схему (кумулятивный UV) и количество раз (кумулятивный PV) в течение эксперимента; еще одна часть глобальных показателей — показатель удержания, который запускается при входе пользователя в эксперимент в первый раз и активен на второй день Удержание на следующий день и т. д., мы можем рассчитать удержание 2, 3, ..., 7 дней и т. д.
- простой индикатор
Простой индикатор состоит из одного пользовательского события.После того как пользователь настроит пользовательское событие, будет автоматически сгенерирован соответствующий экспериментальный индикатор: включая общее количество PV (количество сработавших событий), общее количество UV (общее количество пользователей, инициированных событием), и коэффициент конверсии UV (процент пользователей, которые инициировали пользовательское событие среди экспериментальных пользователей), среднее значение (общее количество триггеров/количество пользователей, вошедших в экспериментальную программу).
- составной индикатор
Составные индикаторы используются для расчета связанных статистических эффектов нескольких пользовательских событий. Базовые операции над наборами включают пересечение, вычитание и деление. Мы также поддерживаем эти четыре операции в составных индикаторах. Здесь мы берем два пользовательских события E1, E2 в качестве примера:
И (Е1+Е2): указывает, что до тех пор, пока происходит E1 или E2, считается, что пользователь инициировал событие (E1+E2), тогда общее количество инициированных событий равно общему количеству инициированных E1 + общее количество инициированных E2, а расчет других сопутствующих индикаторов можно рассматривать как индикаторы простого типа для обработки.
Крест (Е1*Е2): указывает, что пользователь запустил и E1, и E2. Мы можем посмотреть на это на основе одного сеанса, так что общее количество триггеров событий равно общему количеству сеансов, которые запустили и E1, и E2, что также может быть равно 1 на по умолчанию (в настоящее время mPaaS напрямую считает 1, то есть для расчета пересечения мы в основном смотрим на преобразование UV), а расчет других сопутствующих индикаторов можно рассматривать как простой индикатор для обработки.
Плохо (E1-E2): указывает, что пользователь запускает E1, но не запускает E2.Общее количество инициированных событий – это общее количество раз, когда пользователь, отвечающий условию, запускает E1.Расчет других связанных индикаторов можно рассматривать как простой индикатор.
Разделить (E1/E2): это событие-конверсия. Самый простой пример: событие E1 представляет собой нажатие кнопки, а событие E2 — нажатие кнопки. Тогда коэффициент конверсии pv равен сумме (E1)/сумме (E2), т. е. pv -ctr, Тот же калибр среднего коэффициента конверсии УФ тоже понятен. Также взяв в качестве примера экспонированные клики, при расчете дисперсии фактического pv-ctr мы обнаружили, что на самом деле существует корреляция между несколькими экспозициями пользователя.Затем при расчете фактической дисперсии мы используем разложение Тейлора и ко- корреляции коэффициентов Е1 и Е2, оптимизируется формула дисперсии:
Предполагая, что x1,x2,...xn — это количество кликов на пользователя, а y1,y2,...,yn — количество экспозиций на пользователя, тогда
Выше приведено краткое изложение анализа конкретной технической архитектуры мобильного ABTest и того, как его реализовать в Alipay. Если вы заинтересованы в ABTest, вы можете уделить больше внимания последующим статьям и итеративным обновлениям продукта mPaaS.
Читать в прошлом
«Начало | Обзор системы основных компонентов сервера mPaaS компании Ant Financial»
«Основные компоненты сервера mPaaS: анализ архитектуры службы мобильного анализа MAS»
«Проект системы компонентов Ant Financial для 100 миллионов одновременных сценариев»
«Эволюция автоматизированного сбора и анализа журналов в приложении Alipay»
Подпишитесь на нашу официальную учетную запись, чтобы ознакомиться с технологией mPaaS из первых рук.
Группа Dingding: номер группы поиска «23124039» через Dingding
С нетерпением жду вашего присоединения ~