Резюме опыта Ant Financial в мониторинге и посадке Service Mesh

монитор Эксплуатация и обслуживание

введение

Service Mesh в настоящее время является самым популярным технологическим направлением в сообществе.В прошлом году Double 11 был полностью применен в Ant Financial, и он без проблем поддерживал большой сервис продвижения. Эта статья является крупнейшим на данный момент кластером Service Mesh и обобщает опыт внедрения Service Mesh в области мониторинга, главным образом, по следующим аспектам:

  1. Собственный облачный мониторинг, внедрение мониторинга Ant Financial Metrics;
  2. Анализ с точки зрения пользователя, представление опыта работы с этим базовым средством обслуживания с точки зрения владельца приложения и требований SRE к мониторингу стабильности службы в масштабе всего сайта;
  3. Думать о будущем, представляя дальнейшее направление развития;

Облачный мониторинг

Концепция дизайна облачных приложений принимается и признается все большим числом разработчиков.В этом году службы приложений Ant Financial полностью облачные, что выдвигает более высокие требования к нашим службам мониторинга. В настоящее время сервис мониторинга показателей Metrics также постепенно сформировал систему, как показано на рисунке ниже, он основан на нативной схеме сбора Prometheus сообщества и реализован в сценарии мониторинга Ant Financial.

1.jpg

как собрать

Ant Financial Monitoring and Collection AGENT развертывается на физическом компьютере и поддерживает несколько подключаемых модулей сбора, как показано на рисунке ниже, включая команды выполнения, журналы, HTTP-запросы, динамический сбор SQL, сбор системных индикаторов, сбор JVM и мониторинг процессов. и т. д. Он поддерживает несколько анализов одновременно: настраиваемый синтаксический анализ подключаемых модулей, синтаксический анализ однострочного текста, синтаксический анализ сценариев Lua, синтаксический анализ JSON, синтаксический анализ Prometheus и т. д.

image.png

При реализации мониторинга Service Mesh бизнес-сторона обращается к отраслевым стандартам для вывода данных индикаторов метрик, а также отслеживает и собирает различные индикаторы различных модулей, приложений и дополнительных компонентов физической машины, включая индикаторы метрик и индикаторы системных служб (ЦП, МЭМ). , DISK, JVM, IO и т. д.) и т. д.), а затем вычислить и очистить узлы кластера, извлекая последние периодические данные для агрегации данных, группировки и т. д. Цикл сбора данных далее делится на: 5-секундный уровень данные и минутные данные. Для Service Mesh основными индикаторами, вызывающими озабоченность, являются системные индикаторы и индикаторы показателей:

  • Системные индикаторы (включая системные индикаторы в нескольких измерениях Sidecar, таких как Pod, App и MOSN):
    • Системные индикаторы, включая CPU, LOAD, MEM, BYTES, TCP, UCP и другую информацию;
    • Диск, включая свободное место в разделе, использование и другую информацию;
    • IO, включая IOPS и другую информацию;
  • Метрики:
    • PROCESSOR, включая информацию о ресурсах процесса, такую ​​как количество fd, открытых процессом MOSN, и размер запрошенной виртуальной памяти;
    • GO, включая номер горутины (G), номер потока (M) и мемстаты, а также другую информацию времени выполнения процесса MOSN;
    • Нисходящий поток, включая глобальное совокупное количество нисходящих каналов, общее количество прочитанных байтов, совокупное количество запросов, время запроса и т. д.;
    • Восходящий поток, включая количество сбоев восходящих запросов, совокупное количество установленных ссылок в кластере, совокупное количество неработающих ссылок, количество ненормальных разрывов ссылок и среднее время выполнения восходящих запросов;
    • MQ Mesh, включая общее количество отправленных сообщений, затраты времени, количество сбоев и т. д., а также общее количество потребленных сообщений, затраты времени, количество сбоев и т. д.;
    • Сетка шлюза, включая qps, rt, текущий лимит и многомерное количество успешных и неудачных попыток и т. д.;

расчет данных

Данные, собранные агентом, необходимо агрегировать вверх из разных измерений, чтобы удовлетворить требования к данным разных пользователей с разных точек зрения (LDC, IDC, APP, домен архитектуры, сайт и т. д.), чтобы адаптироваться к эксплуатации и обслуживанию. Архитектура системы Ant Financial.

image.png

На этот раз для такой крупномасштабной системы данных наша команда построила унифицированную платформу обработки данных мониторинга для Ant Financial.

  • Используйте унифицированные стандарты данных мониторинга, доступ к подключаемым модулям для сбора данных и общие службы API службы данных, чтобы ускорить итерацию различных продуктов мониторинга;
  • Создать надежную систему качества данных и высокодоступный вычислительный кластер для обеспечения контроля качества данных;
  • Обеспечьте широкие и открытые возможности анализа данных с помощью определения задач, подобных SQL, настраиваемых вычислительных задач и подключаемых модулей для удовлетворения потребностей в анализе различных сложных данных в бизнес-сфере технических рисков;

image.png

Ключевые компоненты выполнения планирования вычислительных задач (искры) включают GS (планирование глобального графа Global-Scheduler) и CS (вычислительное пространство Compute-Space).

GS — это центр планирования задач платформы.Как показано на рисунке ниже, он собирает конфигурацию источников данных всех предприятий и строит модель топологии глобальных вычислительных задач (GlobalGraph) в соответствии с взаимосвязью вычислений между источниками данных. Затем в соответствии с различными стратегиями выполнения задачи граф топологии глобальной задачи разрезается на топологию мелкомасштабной задачи (Graph). Основные особенности:

  • GS распределяет графы по разным вычислительным пространствам для вычислений (Cspace) в соответствии со стратегиями, такими как приоритет задач, качество ресурсов и условия нагрузки;
  • Зависимости данных в рамках одного и того же графика напрямую зависят от процесса расчета;
  • Зависимости данных между разными графиками будут разделены через хранилище;
  • GS будет управлять статусом задач всех графов и вычислительных узлов, а также контролировать время выполнения графов в соответствии с зависимостями графов и статусом выполнения зависимых графов;

image.png

CS — это пространство выполнения абстрактных вычислительных задач вычислительной платформы. Как показано на рисунке ниже, CS в основном отвечает за анализ Graph, а также за отправку и выполнение конкретных вычислительных задач. Он подходит для различных вычислительных движков, таких как Spark. /Флинк. Взяв Spark в качестве примера, CS получает GraphTask, отправленный GS, разбирает его на оператор преобразования Spark и оператор действия в соответствии с узлом (преобразованием) в GraphTask, формирует расчетную DAG и отправляет ее в кластер Spark для выполнения.

Во время выполнения задачи CS синхронизирует состояние выполнения каждой задачи с GS для отслеживания и мониторинга задач.

image.png

Несколько CSpaces образуют CSpaceGroup. CSpaces можно разделить на разные вычислительные группы в соответствии с конкретными сценариями, такими как балансировка нагрузки, уровень ресурсов и сине-зеленый выпуск. Поток задач между несколькими CSpaces может удовлетворять балансировке нагрузки, изоляции ресурсов и сине-зеленому выпуск., оттенки серого и другие требования высокой доступности.

проблема масштабирования

Для крупномасштабных данных кластера Service Mesh компании Ant Financial невозможно запрашивать результаты в режиме реального времени через PromQL для всех запросов продуктов и своевременно уведомлять о тревоге. На этом этапе мы классифицируем данные мониторинга, в которых предварительно вычисляются и агрегируются многомерные данные, такие как приложения, компьютерные комнаты и сайты, такие как количество запросов в секунду, успешность пересылки RPC, ошибки ошибок и т. д. в разных компьютерных комнатах.

Среди них большое продвижение контейнеров MOSN в этом году достигло сотен тысяч.В процессе частого выпуска и развертывания, онлайн и оффлайн процесса предъявляются более высокие требования к мониторингу и просмотру в реальном времени. Модуль метаданных подключен к кластеру K8s, и оператор мониторинга развертывается для отслеживания изменений состояния контейнера и обновления последней конфигурации коллекции в модуле агента через реестр агента за считанные секунды.

image.png

Гарантия большого продвижения

С одной стороны, мы гарантируем высокую доступность мониторинга, чтобы уровень сбора и вычислений можно было расширить или свернуть, а с другой стороны, мы оценим пропускную способность.Низкоприоритетные задачи связываются с бизнес-сторонами для деэскалации . Таким образом, гарантируется стабильность данных ядра при условии жесткого мониторинга вычислительных ресурсов.

image.png

Перспектива продукта

Service Mesh — это основное средство обслуживания, используемое внутренними службами приложений Ant Financial, и оно имеет разные точки зрения для разных пользователей. Что касается продуктов мониторинга, использование продуктов пользователями в основном сосредоточено на трех уровнях «распространение, просмотр и использование» данных. Ранее мы уже проводили аналогичный анализ пользователей. В Ant Financial пользователи делятся на глобальных последователей, владельцев продуктов, SRE, экспертов в предметной области и обычных пользователей в соответствии с их моделями использования.Продукты мониторинга здесь также предоставляют различные перспективы для Service Mesh для удовлетворения различных потребностей пользователей.Например:

  • Точка зрения владельца продукта: конкретно относится к разработчикам продуктов MOSN, которые в основном несут ответственность за охват данных индикаторов мониторинга MOSN, точность данных и ключевые цели настройки;
  • С точки зрения обычного пользователя: относится к владельцу приложения Владелец приложения в основном видит влияние службы MOSN на вызовы RPC приложения и повышение эффективности, вызванное использованием приложением службы MOSN;
  • Перспектива SRE: они сосредоточены на общей перспективе, им необходимо знать стабильность всех услуг MOSN и уделять больше внимания раннему предупреждению и анализу;
  • Перспектива эксперта в предметной области: специально для пользователей данных углубленного мониторинга, таких как углубленные показатели JVM, CPU, Go и других, а также более глубокий анализ производительности, jfr;
  • Глобальная перспектива: относится к последователям на уровне архитектора или на уровне всего сайта, фокусируясь на области сервисов приложений на уровне сайта;

Владелец приложения

Владелец приложения с нетерпением ждет и нервничает по поводу этого нового сервиса.Он не только с нетерпением ждет, какие новые функции и услуги может принести ему этот сервис MOSN, но также беспокоится, что новый сервис принесет мне еще один уровень зависимостей. и проблемы со стабильностью. В настоящее время для продукта, удовлетворяя наблюдаемость данных, он фокусируется на наблюдении за основными индикаторами MOSN и архивации данных об ошибке MOSN.В то же время возможность сигнализации своевременно адаптируется, так что владелец разработки может понять, в чем проблема, с первого раза.

Поскольку режим развертывания MOSN находится в том же поде, что и контейнер приложения, владелец приложения в это время будет беспокоиться о вытеснении ресурсов.Конечно, это в конечном итоге проверяется данными.В настоящее время важно сравнение плиток данных об уровне воды. .

2.jpg

Специалист по продуктам МОСН

Технические специалисты по продуктам MOSN полностью уверены в своих новых услугах, но им необходимо проверить общие показатели производительности и настроить производительность своих продуктов для достижения оптимизации. Поэтому вначале продукты мониторинга сотрудничали со службами MOSN для полного охвата данных и проверки точности от офлайн до онлайн, а затем для глобального наблюдения и сравнения основных показателей.

В процессе запуска сервиса MOSN больше всего контактов приходится на технических специалистов MOSN.Подобно панели MOSN, уже есть агрегированная панель мониторинга измерений приложений, но для устранения ошибок используются глобальные автономные системные индикаторы измерений (процессор , mem, load) top n более информативны, они могут помочь быстро найти экземпляры исключений CPU и MEM.

image.png

СРЭ Эксперт

Эксперты SRE всегда испытывают необъяснимые опасения по поводу запуска новых продуктов, особенно в связи с масштабным запуском MOSN-сервиса Ant Financial в этом году, поэтому в настоящее время для проверки соответствия стандартам запуска требуется достаточно данных. В настоящее время необходимо отслеживать и предоставлять данные, особенно данные всего измерения станции.По этой причине мы специально предоставляем службу основного приложения для мониторинга диска и наблюдаем за rt основного приложения MOSN, количество отчетов об ошибках и уровень воды в верхнем экземпляре в процессе измерения стресса.

image.png

глобальный архитектор

Глобальные наблюдатели, конечно же, обращают внимание на основные показатели.Разбирая решение для обеспечения стабильности SRE, они также обращают внимание на повышение производительности, вызванное всеми услугами MOSN, такими как показатель успешности переадресации услуг, MOSN rt и другие показатели.

В дополнение к вышеупомянутым базовым возможностям продукта мы также стараемся продолжать улучшать продукты с точки зрения данных, функций и опыта.

думать о будущем

Продукты мониторинга Ant Financial будут стремиться стать полноценным мониторингом в эпоху облачных вычислений, от приложений до инфраструктуры, от облака, от периферии до конца, чтобы сделать все данные мониторинга в области технических рисков прозрачными и иметь универсальные наблюдаемые возможности. . Внутри он будет поддерживать бизнес-сценарии в различных областях технических рисков, включая реагирование на чрезвычайные ситуации, пропускную способность, текущее ограничение, безопасность, изменения и продвижение, а снаружи он будет поддерживать экспорт технологий, облачные продукты, расширение международных возможностей и коммерциализацию.

Следующим ключевым направлением является «Мониторинг как услуга», целью которого является предоставление студентам бизнес-исследовательских и опытно-конструкторских работ и SRE возможности выполнять такие функции, как мониторинг сбора данных, агрегирование данных, настройка правил раннего предупреждения и крупномасштабное представление отчетов CMS с помощью кода, улучшая удобство и гибкость мониторинга бизнес-сценариев и креативность, привносящая больше возможностей в красочный геймплей в области мониторинга.

Наконец, мы также приглашаем партнеров-единомышленников присоединиться к нам для участия в архитектурном проектировании и инновациях систем мониторинга финансового уровня.

насчет нас

Эта статья перенесена из публичного аккаунта "Ant Intelligent Operation and Maintenance". Этот официальный отчет создан командой Ant Intelligent Monitoring Team. Он предназначен для студентов, которые обеспокоены технологиями интеллектуальной эксплуатации и обслуживания. Он поделится с вами мыслями и практикой архитектурного дизайна Ant Financial и инновациями интеллектуального мониторинга в облаке. Родная эпоха время от времени.

Группа интеллектуального мониторинга Ant отвечает за требования к мониторингу инфраструктуры и бизнес-приложений Ant Financial и усердно работает над созданием системы мониторинга, которая поддерживает миллионы машинных кластеров и сотни миллионов сервисных вызовов, охватывая индикаторы, журналы, производительность и Данные, включая сбор, очистку, вычисление, хранение и даже крупномасштабное отображение, автономный анализ, охват сигналов тревоги, определение первопричины и другие функции, а также универсальный интегрированный продукт для мониторинга с интеллектуальными возможностями AIOps, обслуживающий множество Ant Финансовые услуги и сцена.

Если вы хотите обсудить какую-либо тему «Интеллектуальная эксплуатация и техническое обслуживание», оставьте сообщение и сообщите нам об этом.

PS: Ant Intelligent Monitoring набирает экспертов AIOps, присоединяйтесь к нам, если вы заинтересованы, свяжитесь с boyan@antfin.com

Официальная учетная запись: распределенная архитектура финансового уровня (Antfin_SOFA)