Подробное объяснение принципа сегодняшнего алгоритма рекомендации заголовков

задняя часть Архитектура алгоритм Безопасность
Этот обмен в основном представит обзор системы рекомендаций Toutiao и принципов анализа контента, пользовательских тегов, анализа оценки и безопасности контента.

Сегодня алгоритмическое распространение постепенно стало стандартом почти для всего программного обеспечения, такого как информационные платформы, поисковые системы, браузеры и социальное программное обеспечение, но в то же время оно также начало сталкиваться с различными вопросами, проблемами и недоразумениями.

В январе 2018 года доктор Хуанхуан Цао, старший архитектор алгоритмов Toutiao, впервые раскрыл принцип алгоритма Toutiao, чтобы продвигать алгоритм консультаций и советов во всей отрасли. Делая алгоритм прозрачным, он устраняет недопонимание алгоритма во всех сферах жизни.

Сообщается, что сегодняшний алгоритм рекомендации информации заголовков с сентября 2012 года, первое издание, разработанное для работы до сих пор, претерпел четыре основных корректировки и модификации. В настоящее время обслуживает миллионы пользователей по всему миру.

Ниже приводится то, что Цао Хуаньхуан поделился «Сегодняшними принципами алгоритма Toutiao» (одобрено):

36氪首发 | 今日头条推荐算法原理全文详解

Этот обмен в основном представит обзор системы рекомендаций Toutiao и принципов анализа контента, пользовательских тегов, анализа оценки и безопасности контента.

36氪首发 | 今日头条推荐算法原理全文详解

1. Обзор системы

Если система рекомендаций описана формально, то на самом деле это функция подгонки удовлетворенности пользователя контентом, которая должна вводить переменные трех измерений.

36氪首发 | 今日头条推荐算法原理全文详解Первое измерение — это содержание.Toutiao теперь представляет собой всеобъемлющую платформу контента. Графика, видео, короткие видеоролики пользовательского контента, вопросы и ответы и микро-toutiao. Каждый контент имеет свои особенности. Необходимо учитывать, как извлекать характеристики разных типов контента, чтобы давать рекомендации.Второе измерение - это функция пользователя.Он включает в себя различные метки интересов, профессию, возраст, пол и т. д., а также неявные интересы пользователей, очерченные многими моделями.Третье измерение – экологические характеристики.Это особенность рекомендации в эпоху мобильного Интернета.Пользователи перемещаются в любое время и в любом месте, и их информационные предпочтения меняются в зависимости от различных сценариев, таких как рабочие места, поездки на работу и путешествия.

Объединив три измерения, модель даст оценку, то есть подходит ли рекомендуемый контент для данного пользователя в данном сценарии.

Еще один вопрос: как ввести цели, которые нельзя измерить напрямую?

36氪首发 | 今日头条推荐算法原理全文详解

В модели рекомендаций рейтинг кликов, время чтения, лайки, комментарии, репосты и лайки — все это поддающиеся количественному измерению цели Модель может быть напрямую приспособлена для прогнозирования, а онлайн-улучшение можно увидеть, чтобы узнать, хорошо ли оно работает. или нет. Однако масштабная рекомендательная система, обслуживающая множество пользователей, не может быть полностью оценена по показателям, а также важно вводить элементы, отличные от показателей данных.

Например, реклама и контроль частоты специального контента. Карточка вопросов и ответов — это особая форма контента. Рекомендуемая цель — не позволить пользователям просматривать, а также побудить пользователей отвечать и делиться контентом с сообществом. Необходимо подумать о том, как смешивать этот контент с обычным контентом и как контролировать частоту.

также,Из-за учета экологии контента и социальной ответственности такие платформы, как подавление вульгарного контента, подавление заголовков и низкокачественного контента, приклеивание, взвешивание и вторжение важных новостей, а также сокращение прав низкокачественных уровень контента аккаунта это все алгоритмы которые не могут быть завершены сами по себе.Дальнейшее вмешательство в контент. 

Ниже я кратко расскажу, как этого добиться, основываясь на вышеуказанных целях алгоритма.

36氪首发 | 今日头条推荐算法原理全文详解Вышеупомянутая формула y = F(Xi, Xu, Xc) — очень классическая задача обучения с учителем. Существует множество достижимых методов, таких как традиционная модель совместной фильтрации, алгоритм обучения с учителем, модель логистической регрессии, модель на основе глубокого обучения, факторизация. Машина и GBDT и т. Д.

Для превосходной рекомендательной системы промышленного уровня требуется очень гибкая платформа для экспериментов с алгоритмами, которая может поддерживать различные комбинации алгоритмов, включая корректировку структуры модели. Потому что трудно иметь общую архитектуру модели, подходящую для всех сценариев рекомендаций. Объединение LR и DNN сейчас очень популярно, и несколько лет назад Facebook также объединил алгоритмы LR и GBDT. Несколько продуктов под Toutiao используют одну и ту же мощную алгоритмическую систему рекомендаций, но архитектура модели будет скорректирована в соответствии с различными бизнес-сценариями. 

36氪首发 | 今日头条推荐算法原理全文详解

После модели давайте посмотрим на типичные функции рекомендации, Есть в основном четыре типа функций, которые будут играть важную роль в рекомендации.

Первая категория — это функция корреляции, которая представляет собой свойства содержания оценки и соответствие пользователя.Явное сопоставление включает сопоставление ключевых слов, сопоставление категорий, сопоставление источников, сопоставление тем и т. д. Как и в модели FM, существуют также некоторые неявные совпадения, которые могут быть получены из расстояния между вектором пользователя и вектором контента.

Вторая категория — характеристики окружающей среды, включая географическое положение и время. Это обе функции смещения, и их также можно использовать для создания некоторых соответствующих функций.

Третья категория – тепловые характеристики.Включая глобальную популярность, популярность категории, популярность темы, популярность ключевого слова и т. д. Информация о популярности контента очень эффективна в крупных рекомендательных системах, особенно когда пользователи работают с холодным стартом.

Четвертая категория — синергетические свойства, которые могут частично помочь решить так называемую проблему алгоритмического сужения.Совместные функции не учитывают существующую историю пользователя. Вместо этого он анализирует сходство между разными пользователями посредством поведения пользователей, такого как сходство кликов, сходство классификаций интересов, сходство тем, сходство слов интересов и даже сходство векторов, чтобы расширить возможности исследования модели. 

36氪首发 | 今日头条推荐算法原理全文详解

На тренировке модели большинство рекомендуемых продуктов являются тренировки в реальном времени. Поезд провинции Ресурсы в режиме реального времени и обратная связь быстро, что очень важно для продуктов потока информации. Пользовательская информация о поведении информация может быть быстро захвачена и обратная связь с рекомендуемым эффектом следующей кисти. В настоящее время мы обрабатываем данные образца на основе грохотных кластеров, включая щелчок, отображение, коллекцию, совместное использование и другие типы действий. Сервер параметров модели представляет собой высокопроизводительную систему, внутренне разработанную, поскольку данные заголовка слишком быстрая, и аналогичная устойчивость и производительность системы с открытым исходным кодом не может быть выполнена, а наша саморазвитая система имеет много целевой оптимизации, при условии, что улучшить работу и Инструменты обслуживания, более подходящие для существующих бизнес-сцен.

В настоящее время модель рекомендательного алгоритма Toutiao относительно велика в мире, включая десятки миллиардов исходных признаков и миллиарды векторных признаков. Общий процесс обучения заключается в том, что онлайн-сервер записывает функции в реальном времени, импортирует их в очередь файлов Kafka, а затем импортирует кластер Storm для использования данных Kafka.Клиент отправляет обратно рекомендуемую метку для создания обучающих образцов, а затем проводит онлайн-обучение обновлению параметров модели на основе последних образцов.Окончательная онлайн-модель обновляется. Основной задержкой в ​​этом процессе является задержка обратной связи с пользователем, потому что пользователь может не обязательно читать статью сразу после того, как статья будет рекомендована.Независимо от этой части времени, вся система работает практически в режиме реального времени.

36氪首发 | 今日头条推荐算法原理全文详解

Однако, поскольку текущий контент Toutiao очень велик, а небольшой видеоконтент имеет десятки миллионов уровней, рекомендательная система не может предсказать весь контент по модели. Следовательно, необходимо разработать некоторые стратегии отзыва, и каждый раз, когда это рекомендуется, библиотека контента с тысячей уровней будет отсеиваться от массивного контента. Наиболее важным требованием стратегии отзыва является то, что производительность должна быть экстремальной.Как правило, тайм-аут не может превышать 50 миллисекунд. 

36氪首发 | 今日头条推荐算法原理全文详解

Существует много типов стратегий припоминания, и мы в основном используем перевернутую идею. Поддерживать инверсию в автономном режиме.Ключом этой инверсии может быть категория, тема, объект, источник и т. д. Рейтинг учитывает популярность, свежесть, действие и т. д. Онлайн-вызов может быстро урезать содержимое из перевернутого списка в соответствии с тегами интересов пользователя и эффективно выбрать небольшую часть более надежного содержимого из большой библиотеки содержимого. 

36氪首发 | 今日头条推荐算法原理全文详解

2. Контент-анализ

Контент-анализ включает анализ текста, анализ изображений и анализ видео. Вначале Toutiao в основном ориентировался на информацию, а сегодня мы в основном говорим об анализе текста. Очень важной ролью анализа текста в рекомендательных системах является моделирование интересов пользователей. Без содержания и текстовых тегов невозможно получить теги интересов пользователя. Например, только зная, что тегом статьи является Интернет, и пользователь прочитал статью с тегом Интернет, он может знать, что у пользователя есть тег Интернет, а другие ключевые слова совпадают.

36氪首发 | 今日头条推荐算法原理全文详解С другой стороны, теги текстового контента могут напрямую помочь рекомендовать функции.Например, контент Meizu может быть рекомендован пользователям, которые следят за Meizu, что является сопоставлением пользовательских тегов. Если эффект от рекомендации основного канала в течение определенного периода времени неудовлетворителен, а рекомендация сужена, пользователи обнаружат, что после прочтения рекомендации конкретного канала (например, технологии, спорт, развлечения, военные и т. д.) и затем возвращаясь к основной ленте, эффект рекомендации будет лучше. Поскольку вся модель открыта, пространство для исследования подканалов меньше, и проще удовлетворить потребности пользователей. Трудно повысить уровень точности рекомендаций только за счет обратной связи по одному каналу, и очень важно хорошо работать с подканалом. И это также требует хорошего контент-анализа.

36氪首发 | 今日头条推荐算法原理全文详解

Картинка выше — это реальный текст Toutiao сегодня. Как видите, в этой статье есть текстовые функции, такие как категории, ключевые слова, темы и слова-сущности. Конечно, дело не в том, что рекомендательная система не может работать без текстовых функций, рекомендательная система впервые была применена в Amazon, еще в эпоху Wal-Mart, включая Netfilx для видеорекомендации, а текстовой функции для прямой совместной фильтрации нет. рекомендация.Однако для информационных продуктов большая часть контента потребляется в один и тот же день, холодный старт нового контента без текстовых функций очень затруднен, а совместные функции не могут решить проблему холодного старта статей.

36氪首发 | 今日头条推荐算法原理全文详解Основные функции текста, извлекаемые рекомендательной системой Toutiao, включают следующие категории. Во-первых, это функция класса семантических тегов, которая явно помечает статью семантическими тегами. Эта часть меток является функцией, определяемой людьми, каждая метка имеет четкое значение, а система меток предопределена. Кроме того, существуют неявные семантические признаки, в основном признаки темы и признаки ключевого слова.Признак темы представляет собой описание вероятностного распределения слов и не имеет четкого значения, в то время как признак ключевого слова будет основываться на некоторых унифицированных описаниях признаков без четкого набора .

36氪首发 | 今日头条推荐算法原理全文详解Кроме того, функция сходства текста также очень важна. В Toutiao один из самых больших вопросов, о котором сообщают пользователи, заключается в том, почему всегда рекомендуется повторяющийся контент. Сложность этого вопроса в том, что каждый определяет повторение по-своему. Например, некоторые думают, что в этой статье о «Реале» и «Барселоне» вчера видели похожий контент, а сегодня говорят, что эти две команды повторяются. Но для сильного болельщика, особенно болельщика «Барселоны», мне не терпится прочитать все отчеты. Чтобы решить эту проблему, необходимо составить онлайн-стратегии в соответствии с тематикой, написанием, основной частью и другим содержанием подобных статей.

Точно так же существуют пространственно-временные особенности, где происходит содержание анализа и его своевременность. Например, может не иметь смысла навязывать ограничения на поездки в Ухане пользователям в Пекине. Наконец, нам также необходимо учитывать характеристики, связанные с качеством, чтобы судить о том, является ли содержание вульгарным, порнографическим, мягким, куриным супом? 

36氪首发 | 今日头条推荐算法原理全文详解

На приведенном выше рисунке показаны возможности и сценарии использования семантических тегов Toutiao. У них разный уровень и разные требования.

36氪首发 | 今日头条推荐算法原理全文详解Цель классификации состоит в том, чтобы перезаписать всесторонне, я надеюсь, что каждое видео по содержанию будет классифицировано, и система сущностей требует точности, одно и то же имя или контент должны быть четко различимы от одного человека или предмета, но охват не очень полный. Система понятий отвечает за решение семантики сравнительных и абстрактных понятий. Это наша первоначальная классификация, и на практике классификацию и понятия можно использовать в технике, а в дальнейшем единообразно использовать набор технических архитектур.

36氪首发 | 今日头条推荐算法原理全文详解В настоящее время неявные семантические функции хорошо помогают рекомендации, и семантическая метка должна быть помечена, и постоянно появляется новая концепция новых имен, и метка также игнорируется. Это намного сложнее и вложение ресурсов гораздо больше, чем имплицитный семантический характер.Зачем мне семантическая метка? Есть некоторые продукты на продуктах, такие как каналы, которые должны быть четко определены, и система текстовых тегов, которую легко понять. Эффект семантической метки заключается в том, чтобы проверить цену уровня технологии НЛП компании.

36氪首发 | 今日头条推荐算法原理全文详解

Онлайн-классификация рекомендательной системы Toutiao использует типичный алгоритм иерархической классификации текстов. Наверху Корень, первый слой ниже классифицируется по таким категориям, как технологии, спорт, финансы, развлечения и спорт, а затем подразделяется на футбол, баскетбол, настольный теннис, теннис, легкая атлетика, плавание... и футбол далее подразделяются.Международный футбол, китайский футбол и китайский футбол далее подразделяются на первую китайскую лигу, китайскую суперлигу и национальные команды.По сравнению с отдельным классификатором алгоритм иерархической классификации текста может лучше решить проблему перекоса данных. Есть некоторые исключения, когда мы можем видеть, что у нас есть несколько летающих зацепок, если нужно улучшить отзыв. Эта архитектура является общей, но каждый метаклассификатор может быть разнородным в зависимости от сложности задачи, например, некоторые классификационные SVM работают хорошо, некоторые нужно комбинировать с CNN, а некоторые нужно комбинировать с RNN.

36氪首发 | 今日头条推荐算法原理全文详解

На рисунке выше показан пример алгоритма распознавания слов сущности. Кандидаты выбираются на основе результатов сегментации слов и тегирования частей речи.В течение периода может потребоваться некоторый сплайсинг в соответствии с базой знаний.Некоторые сущности представляют собой комбинацию нескольких слов.Необходимо определить, какие слова могут быть объединены чтобы сопоставить описание сущности. Если результат отображает несколько сущностей, его необходимо устранить неоднозначностью по вектору слов, распределению тем и даже самой частоте слов, и, наконец, рассчитывается корреляционная модель.

3. Пользовательские теги

Анализ контента и пользовательские теги — два краеугольных камня рекомендательных систем. Контент-анализ включает в себя больше контента машинного обучения по сравнению с более сложной разработкой пользовательских тегов.

36氪首发 | 今日头条推荐算法原理全文详解

Обычно используемые пользовательские теги в Toutiao включают категории и темы, представляющие интерес для пользователей, ключевые слова, источники, кластеризацию пользователей на основе интересов и различные функции вертикального интереса (модели, спортивные команды, акции и т. д.). Есть также пол, возраст, местонахождение и другая информация. Информация о поле получается путем входа в стороннюю социальную учетную запись пользователя. Информация о возрасте обычно предсказывается моделью, оценивается моделью, распределением времени чтения и т. д. Местонахождение резидента исходит из авторизации пользователя на доступ к информации о местоположении, и на основе информации о местоположении местонахождение резидента получается с помощью традиционного метода кластеризации. В сочетании с другой информацией резидентная точка может сделать вывод о местонахождении пользователя, его командировке и местонахождении. Эти пользовательские теги очень полезны для рекомендаций.

36氪首发 | 今日头条推荐算法原理全文详解Конечно, самый простой пользовательский тег — это тег просмотренного контента. Но здесь задействованы некоторые стратегии обработки данных. В основном включают: Во-первых, шум фильтра. Отфильтруйте заголовки вечеринок по коротким кликам. 2. Горячее наказание. Для пользователей в некоторых популярных статьях (типа PG некоторое время назад новости) понижен. Теоретически, для контента с более широким диапазоном доверие упадет. 3. Распад времени. Интересы пользователей будут меняться, поэтому стратегия больше ориентирована на новое поведение пользователей. Следовательно, по мере увеличения количества действий пользователя вес старых функций со временем будет уменьшаться, а веса функций, вносимые новыми действиями, будут увеличиваться. В-четвертых, отображение наказания. Если статья, рекомендованная пользователю, не была нажата, веса соответствующей функции (категории, ключевого слова, источника) оштрафованы. Конечно, в то же время мы также должны учитывать глобальный фон, есть ли больше связанных толчков контента и связанных сигналов закрытия и неприязни.

36氪首发 | 今日头条推荐算法原理全文详解

Интеллектуальный анализ пользовательских тегов, как правило, относительно прост, в основном это только что упомянутая инженерная задача. Первое издание пользовательской метки заголовка представляет собой структуру пакетного расчета.Процесс относительно прост, и ежедневный день дня, ежемесячные данные о действиях за последние два месяца, результат рассчитывается на кластере Hadoop.

36氪首发 | 今日头条推荐算法原理全文详解Но проблема в том, что с быстрым ростом пользователей увеличивается разнообразие моделей интересов и других задач пакетной обработки, а объем используемых вычислений становится слишком большим. В 2014 году задачи пакетной обработки миллионов обновлений пользовательских тегов для задач Hadoop едва ли выполнялись в один и тот же день. Нехватка вычислительных ресурсов кластера может легко повлиять на другую работу, давление централизованной записи в распределенную систему хранения также начинает увеличиваться, а задержка обновления тегов интересов пользователей становится все выше и выше. 

36氪首发 | 今日头条推荐算法原理全文详解столкнуться с этими проблемами. В конце 2014 года Toutiao запустила кластерную систему потоковых вычислений Storm с пользовательской маркировкой. После перехода на потоковую передачу метка обновляется до тех пор, пока происходит обновление действий пользователя, а затраты ЦП относительно невелики, что может сэкономить 80% времени ЦП и значительно сократить накладные расходы вычислительных ресурсов. В то же время только десятки машин могут поддерживать обновление моделей интересов десятков миллионов пользователей каждый день, а скорость обновления функций очень высока, что в основном может быть квази-реальным временем. Эта система используется с момента ее запуска.

36氪首发 | 今日头条推荐算法原理全文详解Конечно, мы также обнаружили, что не для всех пользовательских тегов требуется система потоковой передачи. Такая информация, как пол, возраст и постоянное местонахождение пользователя, не требует пересчета в режиме реального времени, а ежедневное обновление сохраняется.

4. Оценка и анализ

Общая архитектура рекомендательной системы представлена ​​выше, так как же оценить эффект рекомендации?

Есть поговорка, которую я считаю очень мудрой: «Если вы не можете что-то оценить, вы не можете это оптимизировать». То же самое верно и для рекомендательных систем. 

36氪首发 | 今日头条推荐算法原理全文详解

На самом деле на эффект рекомендации могут влиять многие факторы. Например, изменение набора кандидатов, улучшение или увеличение модуля отзыва, увеличение рекомендуемых функций, улучшение структуры модели, оптимизация параметров алгоритма и т. д., не говоря уже о каждом. Важность оценки заключается в том, что многие оптимизации могут в конечном итоге иметь негативные последствия, а не в том, что эти эффекты улучшатся после запуска оптимизации.

36氪首发 | 今日头条推荐算法原理全文详解

Комплексная система оценки и рекомендаций требует полной системы оценки, мощной экспериментальной платформы и простого в использовании инструмента анализа опыта. Так называемая полная система означает, что она не измеряется одним показателем, не только рейтингом кликов или продолжительностью пребывания и т. д., а требует комплексной оценки. В последние несколько лет мы пытались синтезировать как можно больше показателей, чтобы синтезировать уникальный показатель оценки, но он все еще находится в стадии изучения. В настоящее время нам все еще нужно принять решение после всестороннего обсуждения комитетом по обзору, состоящим из более старших студентов в каждом бизнесе.

Многие компании плохо справляются с алгоритмами не потому, что инженеры недостаточно способны, а нуждаются в мощной экспериментальной платформе и удобных инструментах экспериментального анализа, способных разумно анализировать достоверность показателей данных.

36氪首发 | 今日头条推荐算法原理全文详解

Создание хорошей системы оценки должно следовать нескольким принципам. Первый заключается в учете как краткосрочных, так и долгосрочных показателей. Когда я руководил бизнесом электронной коммерции, я заметил, что многие стратегические корректировки казались пользователям новыми в краткосрочной перспективе, но в долгосрочной перспективе это не помогло.

Во-вторых, необходимо учитывать как пользовательские показатели, так и экологические показатели. Toutiao, как платформа для создания контента, должна не только предоставлять создателям контента ценность для создания более достойных творений, но и обязана удовлетворять потребности пользователей. Также нужно учитывать интересы рекламодателей, это многосторонняя игра и процесс балансировки. 

Также обратите внимание на эффект синергии. Строгой изоляции трафика в экспериментах добиться сложно, и следует обращать внимание на внешние эффекты.

36氪首发 | 今日头条推荐算法原理全文详解

Непосредственным преимуществом мощной экспериментальной платформы является то, что при одновременном проведении множества онлайн-экспериментов платформа может автоматически распределять трафик без ручного взаимодействия, и трафик будет восстановлен сразу после эксперимента, что повысит эффективность управления. Это может помочь компаниям снизить затраты на анализ, ускорить эффекты итерации алгоритма и обеспечить быстрое продвижение работы по оптимизации алгоритма всей системы.

36氪首发 | 今日头条推荐算法原理全文详解

Это основной принцип системы эксперимента по тестированию заголовков A / B. Во-первых, у нас будет хорошо, пользователю указывает на ствол, а затем назначить онлайн-трафик эксперимент, пользователи будут пометить ведро, данные экспериментальной группе в автономном режиме. Например, эксперимент с открытым потоком 10%, каждая из двух экспериментальных групп 5%, 5% совпадает с базовым, политическим и онлайн-рынком, другая новая стратегия.

36氪首发 | 今日头条推荐算法原理全文详解

Во время эксперимента действия пользователей будут собираться, в основном, в квазиреальном времени, и их можно будет увидеть каждый час. Однако, поскольку почасовые данные колеблются, они обычно просматриваются в днях. После сбора экшена будет обработка лога, распределенная статистика и запись в базу, что очень удобно.

36氪首发 | 今日头条推荐算法原理全文详解

В этой системе инженерам нужно только установить требования к трафику, время эксперимента, определить специальные условия фильтрации и настроить идентификатор экспериментальной группы. Система может автоматически генерировать: сравнение экспериментальных данных, достоверность экспериментальных данных, сводку экспериментальных выводов и экспериментальные предложения по оптимизации.

36氪首发 | 今日头条推荐算法原理全文详解

Конечно, одной экспериментальной платформы недостаточно. Платформы онлайн-экспериментов могут делать выводы об изменениях в пользовательском опыте только посредством изменений в индикаторах данных, но существуют различия между индикаторами данных и пользовательским опытом, и многие индикаторы не могут быть полностью определены количественно. Многие улучшения по-прежнему требуют ручного анализа, а крупные улучшения требуют ручной оценки и вторичного подтверждения.

5. Безопасность контента

36氪首发 | 今日头条推荐算法原理全文详解Наконец, я хотел бы представить некоторые меры Toutiao с точки зрения безопасности контента. Toutiao в настоящее время является крупнейшей компанией по созданию и распространению контента в Китае, и она должна уделять все больше и больше внимания социальной ответственности и ответственности лидеров отрасли. Если есть проблема с 1% рекомендуемого контента, это будет иметь большее влияние. 

Поэтому заголовки о безопасности компании ставят в очередь на высший приоритет контента с самого начала создания. Его создание было посвящено группе аудита, отвечающей за безопасность контента. В то время студенты исследования все клиенты, бэк-энд, алгоритм был меньше, чем в общей сложности 40 человек, заголовки придает большое значение обзору содержания.

36氪首发 | 今日头条推荐算法原理全文详解

Теперь содержание сегодняшних заголовков в основном состоит из двух частей, одна из которых — платформа PGC с развитыми возможностями производства контента.

Одним из них является пользовательский контент, такой как вопросы и ответы, комментарии пользователей и микрозаголовки. Эти две части должны пройти единый механизм проверки. Если это относительно небольшое количество содержимого PGC, проверка рисков будет проводиться напрямую, и если проблем не возникнет, будет рекомендована более масштабная. Контент пользовательского контента должен быть отфильтрован с помощью модели риска, и те, у кого есть проблемы, попадут во вторую проверку риска. После того, как обзор будет пройден, контент будет действительно рекомендован. В настоящее время, если вы получите больше определенного количества комментариев или сообщите об отрицательном отзыве, вы снова вернетесь к ссылке для обзора, и если у вас возникнут какие-либо проблемы, вы будете сняты с полки. Весь механизм относительно надежен.Как лидер отрасли, Toutiao всегда требовала от себя самых высоких стандартов с точки зрения безопасности контента.

36氪首发 | 今日头条推荐算法原理全文详解

Технология распознавания общего контента в основном включает порнографическую модель, модель злоупотреблений и вульгарную модель. Вульгарная модель Toutiao обучается с помощью алгоритмов глубокого обучения, библиотека образцов очень велика, изображения и тексты анализируются одновременно. В этой части модели больше внимания уделяется скорости отзыва, а точностью можно даже пожертвовать. Выборочная база модели злоупотреблений также превышает один миллион, уровень отзыва достигает 95%+, а уровень точности составляет 80%+. У нас есть некоторые наказания для пользователей, которые часто делают откровенные или неуместные комментарии.

36氪首发 | 今日头条推荐算法原理全文详解

Идентификация пан-низкого качества включает в себя множество ситуаций, таких как фейковые новости, черные рукописи, несоответствия в заголовке, партия заголовков, низкое качество контента и т. д. Эта часть контента очень сложна для понимания машиной и требует много информации обратной связи, включая другую информацию о образцах. Сравнение. В настоящее время точность и полнота некачественных моделей не особенно высоки, и для повышения порога необходимо совмещать просмотр вручную. На данный момент окончательный отзыв достиг 95%, на самом деле в этой части предстоит еще много работы. Профессор Ли Хан из Лаборатории искусственного интеллекта Toutiao также совместно с Мичиганским университетом разрабатывает научно-исследовательский проект по созданию платформы для идентификации слухов.

Вышеизложенное является общим принципом системы рекомендаций Toutiao. Я надеюсь получить больше предложений в будущем, которые помогут нам лучше улучшить нашу работу.

Оригинальная статья, автор: Гао Сяоцянь. Пожалуйста, нажмите для перепечатки или сотрудничества по содержаниюПерепечатайте инструкции, незаконная перепечатка будет караться законом. искать покрытие,пожалуйста, нажмите здесь.