Автор: Мо Дянь
1. Предыстория бизнеса
Самая большая проблема, с которой сталкивается бизнес прямых трансляций Xianyu после его запуска, — это рост. Студенты Xianyu BI проанализировали и обнаружили, что, сравнивая группы краткосрочного и долгосрочного просмотра, они обнаружили, что две группы людей имеют очевидные различия в стадиях интереса.
Бизнес надеется точно предоставлять высококачественные прямые трансляции на основе понимания прямых трансляций, ведущих и пользователей в соответствии с их интересами, а также усиливать эффект Мэтью ведущих ведущих для достижения конверсии прямых трансляций и увеличения времени просмотра.
2. Цели
Краткое резюме требует двух выводов:
- Точно запустить платформу в течение трех недель и ускорить инфраструктуру базовой операционной платформы;
- С точки зрения бизнеса гарантируется, что средняя конверсия УФ в комнате прямого вещания руководителя достигает определенной цели, а коэффициент конверсии значительно улучшается;
Так можно ли получить высококачественные рекомендации в прямом эфире просто с помощью модели алгоритма? Тогда реальность такова, что умной женщине трудно готовить без риса. Время прямой трансляции короткое, а количество сеансов трансляции и просмотра ограничено, поэтому в обучении модели недостаточно образцов, чтобы напрямую понять интерес пользователя к прямой трансляции, а платформа не усилила контроль за прямой трансляцией. транслировать контент якоря, чтобы реализовать структуру контента. Затем необходимо объединить опыт работы в области прямых трансляций с BI-анализом и алгоритмами, и на основе понимания пользователей, прямых трансляций и комнат прямого вещания реализовать доставку комнат прямого вещания заинтересованным группам и накопить возможности платформизации.
3. План реализации
Первым шагом в запуске комнаты прямых трансляций в реальном времени для заинтересованных групп является понимание людей, в том числе понимание C-конечных пользователей и ведущих, а вторым — понимание прямых трансляций. Результат понимания в итоге будет связан с позицией ресурса страницы в виде групп интересов и якорных групп, формируя предварительное соответствие между полями людей (пользователей) и товаров (прямой эфир) (позиций ресурсов).
Понимание пользователя зависит от характеристических данных пользователя, включая основные характеристики пользователей Xianyu, записи поведения, связанного с товаром, такого как поиск, просмотр, публикация и торговля, характеристики интерактивного поведения и характеристики тегов интересов пользователей. Эти функции не требуют высокой производительности в реальном времени.Большинство функций создается с помощью офлайн-вычислений, а затем функции различных источников данных нормализуются с помощью офлайн-вычислений.
Все функции пользователя будут синхронизированы с платформой выбора толпы, и выбор толпы будет осуществляться посредством пересечения и различия, а также будет выполняться предварительный просмотр и экспорт толпы.
Общий дизайн платформы
Обведенные данные толпы сохраняются в автономном режиме в виде таблицы сопоставления идентификатора пользователя и толпы и объединяются с конфигурацией доставки для получения отношения ассоциации , а затем данные отношения будут синхронизированы. в графическую базу данных Igraph и предоставляется Когда алгоритм рекомендует онлайн, запрашивается соответствующая прямая трансляция, чтобы получить рекомендацию и экспозицию на основе интересов. Ограничение заключается в том, что общий экспозиционный трафик имеет квоту, и алгоритм будет основан на модели для достижения лучшего выбора комнаты для прямой онлайн-трансляции в рамках ограниченной квоты PV.
Следующие подробности о том, как достичьпонимание пользователяа такжепрямая трансляцияиз.
понимание пользователя
Несложно создать обычные функции, понятные пользователям, и теги интересов пользователей должны начинаться с нуля, чтобы пользователи Xianyu компенсировали отсутствие возможностей в этом отношении. Теги интересов в основном используются для анализа текста поведения, сгенерированного историческим поведением пользователя, и определения актуальности фраз, связанных с тегами домена. Содержит различные поведенческие тексты продуктов и постов, показанных на рисунке, данные постепенно дополняются.
Операция будет сортировать ключевые фразы в различных полях в качестве входных данных и сопоставлять функции тегов полей, связанные с пользователями с высокой релевантностью. Для реализации вывода тегов интереса необходимо решить три задачи: хранение, поиск и вычисление релевантности.
Вывод тега интереса (вариант 1)
Как показано на рис. 1, первый план — это исходная идея, а общий процесс выглядит следующим образом:
- Структурирование ключевых слов: студенты BI завершают обработку деталей поведенческого текста, включая нормализацию источника данных, дедупликацию и сегментацию слов при обработке UDF, а также рассчитывают баллы в соответствии с частотой ключевых слов и заданными весами. Вывод структурированных текстовых сведений о поведении пользователя, включая идентификатор пользователя, идентификатор объекта, список ключевых слов и список оценок, соответствующих ключевым словам;
- DSL правил маркировки: после сегментации групп ключевых слов по отраслевым интересам, введенных операцией, он преобразуется в исполняемый DSL для базы данных;
- DUMP пользователя, представляющего интерес: выполнение DSL для извлечения структурированного поведенческого текста, соответствующего входным ключевым словам, выполнение дедупликации пользователя и завершение сопоставления тегов интереса пользователя;
- Выбор толпы: на основе тегов интересов пользователей и других данных характеристик окончательная толпа получается после пересечения и различия.Этот шаг выполняется на сторонней платформе выбора толпы;
Все решение осуществимо и обладает хорошей гибкостью. Автономная часть может постоянно улучшать и обогащать структурированный текст поведения. Инженерный тест направлен на оптимизацию визуализации DSL и потока всего потока данных для повышения эффективности. Вся платформа может подвергаться итеративному развитию. Однако эта схема действительно сложна в реализации, в основном из-за следующих проблем:
- Период строительства может быть коротким, и требуется от 2 до 3 недель для завершения всех функций связи в режиме онлайн и поддержки проверки бизнеса.Реализовать это решение практически невозможно;
- Стоимость хранения огромна, и, по оценкам, требуется около 30 ПБ ресурсов онлайн-хранилища, что невозможно применить для бизнеса с непроверенной ценностью;
Некоторые студенты могут вскоре обнаружить, что процесс от структурирования текста до поиска пользователей с определенными интересами — это бизнес-сценарий, который можно реализовать с помощью поисковой системы? Самой большой проблемой по-прежнему является проблема с бюджетом.Создание поисковой системы также требует больших затрат, а сброс большого объема данных из поисковой системы имеет серьезные проблемы с производительностью.В то же время он не может помочь студентам BI оптимизировать весь процесс .
Основной процесс поисковой системы
Идеально подходит онлайн-решение, которое может реализовать самостоятельную ассоциацию тегов интересов и выбор толпы, используя собственный отраслевой опыт. Из-за вышеуказанных объективных ограничений мы, наконец, выбрали автономный метод связывания пользователей и тегов интересов, быстрого доступа к некоторым тегам интересов, а затем постепенно продвигая онлайн-решение. Благодаря всесторонним возможностям студентов BI была завершена «автономная поисковая система», а некоторые теги интересов пользователей были подготовлены на черный день. Итак, общая схема такова:
- Обрабатывать неструктурированный текст в автономном режиме и получать структурированный текст с помощью дедупликации, сегментации слов и алгоритма (этот шаг аналогичен схеме 1);
- Организуйте ключевые фразы, связанные с тегами домена
- Извлекайте пользователей, которые соответствуют ключевым фразам, с помощью автономных вычислений.
Самым большим недостатком второго решения является то, что универсальность не так высока, как у первого решения.Вывод каждого тега интереса требует разработки BI, которая может соответствовать производительности в реальном времени только T+1. Но есть и некоторые преимущества: низкие затраты на автономное хранилище, а автономные вычисления могут поддерживать пользовательские сложные пользовательские функции. Для более подробного ознакомления с автономной частью см.Система маркировки интересов для групп данныхВведение в реализацию.
Вывод тега интереса (вариант 2)
Реализация доставки
Доставка разделена на две части: автономная и онлайн.Конфигурация доставки эксплуатации и обслуживания хранится в РБД (реляционная база данных), которая должна быть синхронизирована с хранилищем данных.Автономный расчет завершает отношения между пользователем и привязка интереса и формирует отношение . Связанные данные синхронизируются с онлайн-реляционной базой данных графов, предоставляя алгоритмы, которые можно рекомендовать заинтересованным хостам. Весь канал передачи данных должен работать автоматически и как можно быстрее:
- Онлайн-конфигурация не может быть синхронизирована с автономной в режиме реального времени.В настоящее время она запланирована один раз в час, чтобы соответствовать требованиям пунктуальности;
- Автономные задачи управляются зависимыми задачами, которые могут в основном соответствовать требованиям к работе в квазиреальном времени, и каждый раз, когда «отношения интересов пользователя и хоста» полностью обновляются, чтобы добавить новый раздел и в то же время добавить выполненный раздел с тем же временем, что и новый раздел;
- Автономная синхронизация данных с онлайн-базой графов основана на компоненте обмена данными.Раздел готовности автономной таблицы будет регулярно проверяться.Если есть новый раздел готовности, полное обновление данных, соответствующее тому же временному разделу, будет выполняться через механизм сообщений синхронизации;
4. Эффект домашней страницы
Менее чем за три недели платформа полной связи была реализована и запущена, а выбор рабочей группы и конфигурация развертывания могут быть выполнены за считанные минуты.
После пробного запуска прямой трансляции головы в некоторых полях на главной странице эффект налицо:
- Во всех головных залах прямого эфира количество попаданий УФ намного превышает целевое;
- По сравнению с рынком коэффициент конверсии кликов PV и UV в большинстве областей пробного запуска был значительно улучшен, а самый высокий множитель увеличен;
5. Перспективы
В связи с относительно коротким сроком реализации всего проекта реализован минимальный набор интересующих функций доставки прямых трансляций для поддержки быстрой проверки и получения более качественных отзывов и результатов. На этом прототипе его возможности в дальнейшем будут постепенно улучшаться и обогащаться:
- На основе стыковки тегов интересов BI необходимо постоянно обогащать возможности данных о функциях различных размеров, таких как стыковка тегов интересов, и в то же время поддерживать работающих студентов в самостоятельном создании общих тегов интересов и других функций;
- Широкая поддержка возможностей размещения ресурсов, а также многомерные решения AB и возможности общего анализа отчетов с несколькими индексами. Быстрые попытки, быстрая обратная связь и быстрые корректировки, которые могут поддержать больше предприятий;
- Осаждение и абстрагирование основных каналов не ограничиваются поддержкой услуг прямого вещания, но могут быть основаны на платформе для поддержки большего количества услуг сообщества и других услуг. В то же время, на основе понимания интересов пользователей, он может лучше поддерживать понимание контента, реализовывать структуру контента и реализовывать недорогую работу пользователей и интересующего контента;
~~