Платформа изучения пользователей больших данных Meizu

Redis задняя часть Архитектура HBase
Платформа изучения пользователей больших данных Meizu


Источник контента:6 мая 2017 г. архитектор данных Meizu Хуан Чжэньсянь выступил с докладом «Введение в платформу Meizu Big Data User Insight Platform» в рамках «8-го дня открытых дверей Meizu Technology — Data Insight». IT Dajiashuo (ID: itdakashuo), как эксклюзивный видео-партнер, имеет право публиковать видео после просмотра организатором и спикерами.

Количество слов для чтения:1869 | 6 минут чтения

Видеообращение с гостевым выступлением:suo.im/4HBM1x

Резюме

Meizu DMP (User Insight Platform) благодаря агрегации, очистке и интеллектуальному расчету трехсторонних данных об аудитории создала огромный и точный центр обработки данных, предоставляющий подробные данные о портретах пользователей и распознавание сцен в реальном времени. Внутренне: бесшовное подключение приложений данных различных бизнес-платформ, таких как рекламные платформы, PUSH push и персонализированные рекомендации.Каналы данных созданы для поддержки точного маркетинга на уровне компании, услуг своевременной доставки сообщений и других сценариев. Внешний: улучшите управление данными и процесс вывода, предоставьте стандартные и точные метки толпы для специалистов-практиков во всей отрасли в форме открытых интерфейсов, а также помогите оптимизировать доставку и улучшить маркетинговые эффекты. Добивайтесь точной доставки аудитории и раскрывайте истинную ценность данных! В этой статье будет представлена ​​архитектура, принятая платформой для изучения пользователей, обсуждены возникшие технические трудности и процесс решения, рассмотрены недостатки текущей архитектуры и направления будущих улучшений.

Общее введение

Позиционирование платформы пользовательского инсайта


Благодаря агрегации, очистке и интеллектуальной работе с трехсторонними данными об аудитории был построен огромный точный центр данных о толпе, предоставляющий подробные данные о портретах пользователей и распознавание сцен в реальном времени. 

Беспрепятственно связывайте приложения данных различных бизнес-платформ, таких как рекламные платформы, PUSH push и каналы данных, между персонализированными рекомендациями, поддерживайте точный маркетинг на уровне компании, службы своевременной доставки сообщений и т. д.

Оценка маркетингового эффекта, данные обратной связи могут быть дополнительно обработаны для улучшения качества портретных надписей.

основные потребности

Основные требования к информации о пользователях включают следующие части.

Генерация этикеток: интернет-бизнес быстро меняется, и требования к этикеткам часто меняются. Система должна быстро реагировать на потребности в маркировке.

Crowd Insights: фильтруйте и объединяйте любые теги всех пользователей и отвечайте на запросы в течение 1-2 секунд.

Распределение аудитории: бесшовное во всех типах бизнес-систем для достижения эффективного точного маркетинга в реальном времени.

Запрос тегов: Запрос сведений об изображении пользователя в соответствии с идентификатором пользователя, запросы на рекламу должны быть возвращены в течение более требовательных 50 мс.

Общая архитектура

Настройте и запустите автономные вычислительные задачи в системе планирования заданий интегрированной платформы разработки. Потоковая платформа (AnyStream) отвечает за вычисление меток в реальном времени. Соответствующие правила, сгенерированные модулем управления, хранятся в MySQL для использования задачами создания меток (платформа Hive/MR/Streaming). Портрет пользователя (ярлык) широкая таблица сохраняется на ES. Hbase и Redis предоставляют запросы kv. Используйте платформу разработки (OpenAPI) для предоставления внешних интерфейсов.

генерация этикеток

По процессу генерации расчета метки делятся на две категории, одна из которых — статистические метки. Сначала показатели рассчитываются на основе поведения пользователя, а затем в соответствии с правилами генерации меток и статистическими показателями в качестве входных данных может соответствовать тому, какой пользователь относится к какому уровню потребления.

Вычисление метки класса алгоритма

Помимо статистических меток, есть еще и алгоритмическая метка.

Выберите данные с высокой степенью достоверности (например, информацию о регистрации пользователя) и данные о поведении пользователей в качестве входных данных для обучения модели. Затем используйте обученную модель для прогнозирования атрибутов.

Однозначные и многозначные метки

Тег с одним значением означает, что пользователь может взять только одно значение под тегом, а множественный выбор не разрешен.

Тег с несколькими значениями — это комбинация нескольких значений, которые пользователь может принять под тегом. Например, у пользователя может быть несколько хобби. Существование тегов с несколькими значениями повлияет на структуру выбора и структуры хранения механизма запросов к хранилищу.

Процесс создания этикетки

Преимуществом этого режима является управление конфигурацией, которое предоставляет веб-интерфейс для управления жизненным циклом тегов; теги генерируются на основе конфигурации, а данные таблицы ширины тегов на 100 % соответствуют метаданным.

Оставшийся недостаток заключается в том, что текущее управление конфигурацией охватывает только окончательное создание широкой таблицы этикеток. Существует разрыв со статистикой и алгоритмами восходящего индикатора. Восходящий процесс расчета разрабатывается отдельно, а определение индикатора является лишь описанием данных дополнительной конфигурации (могут быть нестыковки). После того, как некоторые теги будут отключены (отменены), зависимости соответствующих вышестоящих задач должны быть отменены отдельно, иначе бесполезные задания будут оставлены для пустой траты вычислительных ресурсов.

Хранилище тегов

Обзор хранилища тегов

ElasticSearch (ES) — это распределенная поисковая система RESTful с открытым исходным кодом, построенная на Lucene. Способен обеспечить поиск в реальном времени, стабильный, надежный и быстрый. На базе ES реализует онлайн-скрининг и агрегированный анализ любых тегов всех пользователей, с секундами и ответами. Hbase обеспечивает высокую пропускную способность запросов ключ/значение. Более критичные к производительности запросы типа «ключ-значение» (рекламные платформы) реализованы с использованием Redid.

Why ElasticSearch (ES)

Традиционная Vertica Community Edition имеет ограничение в 3 узла и емкость хранилища 1T. С ростом масштаба данных и количества вызовов появляются узкие места в производительности.Для многозначных тегов они могут храниться только в полях varchar в формате csv, что приводит к низкой производительности.

При извлечении многозначных тегов используется строковая операция LIKE; агрегирование можно поддерживать с помощью некоторых приемов, но производительность низкая.

И теперь ES может обеспечить поиск в реальном времени, стабильный, надежный и быстрый. Онлайн-обновление (обновление в режиме реального времени/квазиреального времени) имеет сильную горизонтальную масштабируемость. Тип массива отлично поддерживает сценарии хранения и анализа многозначных тегов.

HBase с редисом

Hbase предоставляет недорогие запросы kv с высокой пропускной способностью. Удовлетворить запрос общего бизнеса, недостаток в том, что время ответа на запрос не является идеальным (для рекламного бизнеса).

Для Redis рекламный бизнес предлагает задержку запроса в пределах 50 мс, которую Redis должен реализовать. В настоящее время хранилище Redis обслуживает только вызовы запросов с рекламных платформ.

Учитывая фактор стоимости, Hbase в основном используется для предоставления запросов KV. Некоторые требовательные предприятия используют Redis в качестве дополнения.

Функция платформы

Список основных функций

Существует пять основных функций платформы, управление толпой, скрининга толпы, портретность, распределение аудитории и портретный запрос.

Управление толпой может быть создано двумя способами. 1. Укажите условия метки; 2. Импортируйте список IMEI для изменения и удаления толпы.

Фильтрация толпы заключается в том, чтобы указать параметры условия метки и запросить количество пользователей, соответствующих условиям.

Инсайт изображения делится на два этапа. Сначала укажите параметр условия метки, чтобы выбрать группу пользователей, а затем укажите метку для анализа и проанализируйте характеристики пользователя с помощью операции агрегирования.

Распределение аудитории требует определенных технических средств, чтобы подтолкнуть определенные группы к нижестоящим маркетинговым каналам (рекламные платформы, push-платформы, OTA и т. д.).

Запрос портрета предоставляет интерфейс запроса для нижестоящей системы, и вызывающая сторона указывает идентификатор пользователя (imei) для запроса метки портрета пользователя.

Вот и все на сегодняшнем обмене, спасибо всем