Резюме:Конечной целью интеллектуальной эксплуатации и технического обслуживания является освобождение эксплуатационного и ремонтного персонала от утомительной работы, повышение общей эффективности эксплуатации и технического обслуживания, снижение затрат на эксплуатацию и техническое обслуживание и достижение высокой доступности бизнес-систем.
В настоящее время в отрасли не так много реальных практик внедрения интеллектуальной эксплуатации и обслуживания, большинство из них все еще находятся на стадии автоматизации или даже ручного управления, однако интеллектуальная эксплуатация и техническое обслуживание являются общей тенденцией. Что ответит Али? Ниже вы можете ознакомиться с выступлением Би Сюаня, главы отдела эффективности исследований и разработок Alibaba и исследователя Alibaba, «Новые операции и техническое обслуживание в интеллектуальную эру».
Введение в систему эксплуатации и обслуживания Alibaba
один. Планирование ресурсов и оплата являются краеугольным камнем эксплуатации и обслуживания
Вся команда по эксплуатации и техническому обслуживанию должна нести ответственность за планирование и доставку ресурсов.
Quotaуправлять: Например, мы будем управлять бюджетом вместе с бизнес-группой, и каждая бизнес-команда сначала должна иметь бюджет. Пока у вас есть бюджет, команда эксплуатации и обслуживания обязательно передаст вам ресурсы, если бюджета нет, ничего не будет обсуждаться.
планирование: Например, для ежегодных транзакций Alibaba Double Eleven бизнес-команда должна указать объем транзакций на следующий год Что касается количества машин, которые необходимо добавить за кулисами, бизнес-команде все равно. Таким образом, команда эксплуатации и обслуживания должна выполнять преобразование и планирование от бизнес-требований к ресурсам, что очень важно для компании, потому что это означает, сколько денег я должен инвестировать в инфраструктуру в конечном итоге, а также ритм контроль.
покупка:Когда масштаб большой, очень важно разумно планировать количество ресурсов и ритм поставки, например, закупка этой партии машин в мае и закупка этой партии машин в июне — это совершенно разные понятия. Также требуется закупка ресурсов.Например, закупка твердотельного накопителя является жесткой, а поставки недостаточны. Обычно у крупных компаний будет больше каналов для получения лучшего предложения, маленьким компаниям придется нелегко. Как сделать контроль цепочки поставок очень важно.
Планирование ресурсов:Для ресурсной группы также очень важно планирование: какой способ доставки машин, которые мы передали, как обеспечить доступность, стабильность, Bootstrap и т. д. У каждого бизнеса есть свой собственный план, и как организовать всю бизнес-среду в соответствии с ним. для нужд бизнеса Все для бизнеса. Али в настоящее время сталкивается с большими проблемами.Например, с точки зрения международной экспансии, нам может понадобиться построить сайт здесь в этом месяце и еще один сайт в следующем месяце.Как быстро завершить весь ресурс, а не только это доставка машинных ресурсов и доставка программных ресурсов, что очень важно. Сейчас мы расширяем наш бизнес в Юго-Восточной Азии.Как быстро завершить доставку всех программных ресурсов в Юго-Восточной Азии очень важно для наших конкурентов.
два. Изменения — это неизбежная яма эксплуатации и обслуживания
Для группы эксплуатации и обслуживания также часто вносятся изменения, такие как сбор информации об изменениях, внесение изменений на уровне приложений, IDC базовой сети и так далее.
три. Мониторинг Предсказание возможных сбоев
На али мониторинг в основном делится на основы, сервисы и ссылки.На основе мониторинга надо делать какие-то алармы.
Четыре. Стабильность – цель, которую преследуют многие компании
Раньше мы думали, что концепция стабильности нацелена на крупные компании, потому что она может повлиять на жизнь населения и будет более чувствительной. Но теперь к новым интернет-компаниям, таким как takeout, ofo, Mobike и т. д., предъявляются более высокие требования по стабильности, чем ко многим начинающим компаниям в прошлом, потому что они должны быть доступны в этот момент. повлиять на влияние пользователей. Таким образом, стабильность может получать все больше и больше внимания во всей отрасли эксплуатации и технического обслуживания, но для многих малых и средних компаний инвестиции в стабильность довольно велики.
Пятерки. Создание веб-сайта в один клик гарантирует масштабирование
Например, с точки зрения стабильности, Alibaba в основном строит многоактивную систему, затем исправляет и находит неисправности, а затем проводит полноценный стресс-тест. Масштабирование — очень болезненная вещь для многих команд по эксплуатации и техобслуживанию, может быть, в этом году машина стоит в этом машинном зале, а ваша инфраструктурная команда может сказать вам в следующем году, что этого машинного зала недостаточно, и нам нужно поменять компьютерный зал. Во всяком случае, в Alibaba многие операторы и обслуживающий персонал сказали, что одной из наших ежегодных работ, о которой не нужно писать, является переезд. Хотя команда инфраструктуры будет обещать, что в течение трех лет они больше не переедут, но в следующем году он вам скажет, что мы снова переедем по какой-то причине, и не позволит вам снова переехать через три года после переезда. Но за последние три года нашего развития мы переезжали каждый год. В будущем мы верим в Alibaba, и в будущем может быть относительно меньше перемещений Мы считаем, что перемещение не может быть основной конкурентоспособностью команды по эксплуатации и обслуживанию Alibaba.
Мы много чего сделали на масштабном уровне.Например,создали сайт в один клик.Для Alibaba наши требования к срокам доставки машинных ресурсов будут становиться все выше и выше. Например, на Double Eleven, будь то доставка ресурсов на месяц вперед, на два месяца вперед или на три месяца вперед, деньги, которые мы платим, для нас совершенно разные, и разница может быть очень большой.
Поэтому очень важно, сможет ли технический уровень лучше сократить это время. Таким образом, важная цель создания веб-сайтов в один клик заключается в следующем.Каждый год на Double Eleven мы будем расширять множество веб-сайтов и быстро завершать весь процесс с помощью создания веб-сайтов в один клик. Я сказал о перемещении В любом случае, мы должны переезжать каждый год, поэтому мы должны лучше переместить эту систему. Существует также перемещение.Али часто необходимо сделать некоторое повторное использование бизнес-ресурсов.Лучше всего иметь кабинет.В настоящее время, как лучше завершить процесс перемещения, также очень хлопотно.
Нам также необходимо внести некоторые коррективы в единицы, потому что в торговой системе Али есть понятие единицы, и то, как мы можем лучше контролировать соотношение машин в единице, очень важно. Количество машин в подразделении может быть относительно фиксированным, и если соотношение не соответствует, это означает, что узкое место будет очень очевидным.
Выше перечислены именно те пять областей, которыми занимается команда по эксплуатации и техническому обслуживанию Alibaba. Процесс эволюции всей системы эксплуатации и обслуживания идет почти от самых ранних сценариев к инструментам, к автоматизации, к будущему интеллекту.
От уровня инструментов до автоматизации процесс не так прост, и для всей отрасли еще больше работы по-прежнему связано с изучением автоматизации, как сделать автоматизацию действительно лучше.
Развитие этой отрасли сильно отличается от других традиционных отраслей, занимающихся исследованиями и разработками программного обеспечения и стандартного программного обеспечения. Например, мы считаем, что в процессе перехода Ali от инструментов к автоматизации проблемы с инструментами относительно невелики.Даже традиционный персонал по эксплуатации и техническому обслуживанию может легко написать некоторые инструменты, например, используя Python для написания дополнительных систем инструментов. Но если ваши инструменты являются наиболее важными для возможности автоматизации этого этапа, это означает, что требования к инструментам будут все выше и выше, такие как качество инструментов.Если инструменты, которые вы пишете, часто имеют проблемы, масштаб будет не справиться с этим.В это время все постепенно теряют чувство доверия. В конце будет сложно завершить процесс.
Преобразование группы эксплуатации и технического обслуживания в группу НИОКР Организационные способности являются самым большим препятствием
В процессе того, как Али шел по этому пути в прошлом, мы чувствуем, что самой большой проблемой являются способности организации. Как группа эксплуатации и технического обслуживания может лучше завершить преобразование в группу исследований и разработок, является огромной проблемой для многих групп эксплуатации и технического обслуживания. Для организации также очень важно завершить этот процесс.
Я думаю, многие команды испытывают такое чувство: между командой разработки инструментов и командой эксплуатации и обслуживания могут возникнуть конфликты. Поэтому, когда Alibaba проходит через этот процесс, основная мысль заключается в том, как сделать так, чтобы команда по эксплуатации и техническому обслуживанию действительно превратилась в лучшую команду, которая нам нужна с точки зрения организационных возможностей.
Когда Али пошел по этому пути, он прошел четыре процесса. В этом процессе Али постоянно исследует, и, наконец, мы считаем, что метод Али относительно хорош. Как и в большинстве компаний, сначала у нас была штатная группа по исследованиям и разработкам инструментов, а также штатная команда по эксплуатации и техническому обслуживанию. Группа исследований и разработок инструментов производит инструменты и изготавливает их для группы эксплуатации и технического обслуживания. Наиболее очевидная проблема, которая может возникнуть в этом процессе, заключается в том, что инструмент закончен, а группа эксплуатации и обслуживания говорит, что инструмент слишком сложен в использовании и не соответствует требованиям. Либо команда эксплуатации и обслуживания часто сталкивается с проблемами в процессе выполнения, и если возникает проблема, необходимо попросить команду R&D инструмента помочь выяснить, в чем проблема. Проблема, которую можно решить, используя несколько строк скриптов, изначально зависит от группы инструментов. Постепенно эту ситуацию становится все труднее прорвать и изменить.
Поэтому позже Али предпринял попытку.Поскольку двум командам трудно хорошо совмещаться, у команды R&D есть способ завершить инструмент, например, сделать выпуск, и после того, как эта функция будет завершена, операция и работа по техническому обслуживанию.Она полностью передается группе разработчиков инструмента, а группе эксплуатации и обслуживания не разрешается это делать, а группа эксплуатации и обслуживания может заниматься другими делами. Этот режим, по-видимому, представляет собой режим постепенного поглощения, позволяющий команде разработчиков инструмента постепенно отделяться.
Через некоторое время самой большой проблемой, с которой столкнулись, была проблема организационного потенциала. Для инструментов эксплуатации и обслуживания, как добиться высокого качества, эксплуатация и техническое обслуживание, кажется, легко сделать, но на самом деле инструменты эксплуатации и обслуживания довольно сложно сделать, его сложность больше, чем онлайн-бизнес, то есть это не логически сложный, более сложный на уровне окружающей среды. Потому что, например, это будет связано с сетью, сервером, компьютерным залом и т. д., что полностью отличается от бизнеса. Итак, после того, как мы сделали это некоторое время, мы думаем, что это все еще проблема.
Позже, после того, как мы закончили этот раунд, мы начали пробовать другое направление и позволили группе исследований и разработок инструмента и группе эксплуатации и обслуживания выполнить интеграцию. Так называемая интеграция заключается в назначении людей, разрабатывающих множество инструментов, в группу эксплуатации и обслуживания для выполнения этой задачи. Мы ожидаем, что люди, разрабатывающие инструменты, превратят всю команду по эксплуатации и техническому обслуживанию в группу исследований и разработок. Это наш способ мышления.
Когда Alibaba сделала первые три шага, на это ушло около полутора лет, а это значит, что мы сделали три раунда корректировки организационной структуры. Потому что мы считаем, что этого можно достичь только с организационными гарантиями.
DevOpsКак он действительно приземлился
В июне прошлого года мы внесли самую большую корректировку в организационную структуру, передав ежедневную работу по эксплуатации и техническому обслуживанию отделу исследований и разработок, а исследования и разработки сами выполняли всю повседневную работу по эксплуатации и техническому обслуживанию. Но это не означает, что для всех работ по эксплуатации и техническому обслуживанию по-прежнему существует группа эксплуатации и технического обслуживания.Эта группа эксплуатации и технического обслуживания относительно отличается, и она сильно отличается от прежней.
Мы считаем, что это настоящая реализация DevOps. Из-за этого преимущества ежедневная работа по эксплуатации и техническому обслуживанию перекладывается на НИОКР, а процесс преобразования группы эксплуатации и технического обслуживания в группу НИОКР очень сложен.На самом деле, это не совсем пробел в возможностях.Большая причина заключается в том, что команда по эксплуатации и техническому обслуживанию должна выполнять много работы.Ежедневные обязанности, особенно в группе компаний, одинаковы, будь то Ali, Tencent или Baidu.Большинство компаний группы поддерживают бесчисленное количество BU. Вы сами поддерживаете 20 БУ, а каждый день вас ищет один человек в БЕ. Вам не нужно заниматься другой работой в течение дня. Вы постоянно болтаете с ними, делаете операции и вызываете команду на апгрейд. модернизировать организацию и превратиться в команду R&D на самом деле загоняет других в тупик.
Поэтому мы считаем, что подход Google, о котором Google упомянул в книге SRE, заключается в том, чтобы заставить команду R&D 50% времени заниматься исследованиями и разработками. Честно говоря, в большинстве компаний трудно внедрить эту политику, если только команда по эксплуатации и техническому обслуживанию и команда по исследованиям и разработкам не имеют очень сильного голоса. Но этот сложный. Поэтому я думаю, что подход Али более тщательный.Али сказал команде НИОКР, что в будущем не нанимайте команду по эксплуатации и техническому обслуживанию для ежедневной работы по эксплуатации и техническому обслуживанию, а делайте это самостоятельно. Это может быть немного грубо, я сделал это, когда система эксплуатации и обслуживания не была хорошо подготовлена, поэтому позже это также вызвало проблемы, такие как построение инструментов эксплуатации и обслуживания повсюду, повторная конструкция и так далее.
Но на организационном уровне мы очень рады видеть, что через год после этого раунда организационной перестройки большая часть команды по эксплуатации и техническому обслуживанию посвящает больше времени научно-исследовательским работам, а не повседневной работе по дому. Мы видим, что способности команды значительно улучшились после этого раунда корректировок. И это самая большая выгода для организации. Поэтому мы считаем, что эта модель является направлением, к которому Али относится с наибольшим уважением и оптимизмом, так что вся команда по эксплуатации и техническому обслуживанию сосредоточится на исследованиях и разработках на системном уровне и создании пяти частей, которые я только что упомянул, а не на рутинной работе. Это процесс Али от оснастки до автоматизации, и самое главное именно такой процесс.
Показатель успеха является ключевым показателем для измерения автоматизированной эксплуатации и технического обслуживания.
Самый важный вопрос для автоматизации — это показатель успешности.Например, во всех операциях и операциях по техническому обслуживанию, которые мы рассматриваем, показатель, который нас больше всего волнует, — это показатель успеха. Например, функция в системе эксплуатации и обслуживания будет использоваться сотни тысяч раз в неделю Мы обращаем внимание только на то, может ли показатель успеха достигать более 4 9, иначе мы можем понять количество рабочих заданий. команда по эксплуатации и техническому обслуживанию Сколько людей должны поддерживать это дело, у этих людей нет времени на НИОКР, и они должны уделять много энергии вспомогательной работе. Таким образом, мы должны обеспечить очень высокий уровень успеха.Система эксплуатации и обслуживания, которую мы видели раньше, является самой большой проблемой.Моим предыдущим опытом были все бизнес-системы онлайн, такие как транзакции Taobao.
Позже мы обнаружили, что самая большая разница между системой эксплуатации и обслуживания заключается в том, что система эксплуатации и обслуживания обеспечивает более высокий уровень успеха, чем система онлайн-бизнеса. Например, для систем онлайн-бизнеса, когда у меня возникнут проблемы с доступом к последней части, мы предпочтем как можно скорее завершить процесс, вместо того, чтобы затягивать время методом проб и ошибок. Онлайн-системы быстрее выдают ошибки. Но для системы эксплуатации и обслуживания, если она делает то же самое, это означает, что вероятность успеха очень трудно гарантировать. Поэтому система эксплуатации и обслуживания должна лучше думать о том, как гарантировать работу и обслуживание.За этим могут стоять десятки систем, и большинство из них написаны бесчисленными командами.Ситуация, с которой Али сталкивался раньше, - это бесчисленное количество систем. , да и уровень качества не на высоте, все есть. Как гарантировать, что в такой сложной среде вероятность успеха на уровне пользователя может быть очень высокой. Это большой вопрос.
Нельзя недооценивать проблему масштаба
С непрерывным ростом масштаба все системы эксплуатации и обслуживания с открытым исходным кодом обычно сталкиваются с огромными проблемами при масштабировании, когда масштаб вашей машины и другие масштабы увеличиваются до определенного уровня. Мы утверждаем, что все системы Alibaba этого типа надежнее сделать своими руками. Самая большая причина — это масштаб, после того, как масштаб возрастет, возникнет много проблем. Такие вещи, как хостинг кода и компиляция кода, я раньше думал, что проблем не будет слишком много, но оказывается, что после того, как шкала подходит, все это проблемы. Нам также нужно приложить много усилий для решения проблемы масштаба.
Поэтому я думаю, что в процессе перехода Али от прежних инструментов к более автоматизированному процессу основной вопрос, который мы обсуждали, заключается в том, может ли быть очень хорошая организация для завершения этого процесса. Это может сделать группу эксплуатации и обслуживания более трансформированной в направлении DevOps. Поэтому мы всегда говорили, что мы боролись с тем, каким должно быть название группы эксплуатации и технического обслуживания.Мы согласились с тем, что команда исследований и разработок по эксплуатации и техническому обслуживанию, мы не думаем, что это правильно, ваша основная работа на самом деле занимается исследованиями и разработками. а не эксплуатация и обслуживание. Но как-то странно называть это операциями R&D. Позже Alibaba в основном называли командой R&D. Потому что мы считаем, что нет существенной разницы между командой R&D по эксплуатации и техническому обслуживанию и командой R&D в онлайн-бизнесе. Пять только что упомянутых уровней, бизнес-задачи в области эксплуатации и обслуживания — это тоже бизнес, и нет никакой разницы. Онлайн-бизнес, как и решение проблем с транзакциями, решение других проблем, это точно так же. Существенной разницы между двумя командами НИОКР нет.
Таким образом, в этом процессе, после организационной перестройки Alibaba в прошлом году, мы увидели, что Alibaba добилась хорошего прогресса на всем уровне автоматизации, но ей нужно больше работать, чтобы продолжать развиваться в соответствии с нашими ожиданиями.
Исследования Alibaba в области разведки
Тема интеллекта сейчас очень актуальна.Как мы и говорили, когда появилось название ИИ, мы вдруг обнаружили, что весь бизнес Alibaba — это ИИ + собственный бизнес, и это было всеми безумно раскритиковано. Мы должны четко понимать, есть ли у нас предпосылка ИИ, и мы можем продолжить обсуждение названия, если предпосылка не выполняется. Поскольку индустрия постоянно раскручивает множество терминов, пусть все следуют.
Для нас, мы думаем, например, как я сказал этой команде, моей собственной команде, я думаю, что наиболее важной предпосылкой интеллекта является автоматизация. Если ваша система еще не завершила процесс автоматизации, я не думаю, что она должна быть интеллектуальной, вы все еще находитесь на ранней стадии. Многие требования к интеллекту это автоматизация.Если он недостаточно автоматизирован, значит в тылу сделан хороший интеллектуальный алгоритм и т.д. не завершено, сделайте это полностью.
Один из наиболее типичных случаев, о котором Alibaba говорила ранее, заключается в том, что мы считаем, что сопоставление ресурсов на самом деле можно сделать лучше. Например, если ваш трафик относительно невелик в середине ночи, а трафик относительно велик в течение дня, можете ли вы быть более гибкими, высвобождая ресурсы для других дел, а затем компенсируя это в течение дня. Это не так сложно на уровне алгоритма, и легко сделать простое улучшение на уровне алгоритма.
Итак, в то время у нас было много команд, которые делали что-то подобное. В итоге при запуске выяснилось, что бизнес не может масштабироваться автоматически. Если вы хотите, например, чтобы некоторые машины имели особенно высокую нагрузку, а некоторые машины имели особенно низкую нагрузку, мы надеемся, что нагрузка может быть распределена более равномерно, а онлайн-бизнес более стабилен, сделайте алгоритм, такой как рюкзак, чтобы сделать лучшую комбинацию, результат будет После того, как это будет сделано, предлагается, что лучше всего перенести это приложение на эту машину, а это приложение на эту машину. Посмотрев на это, бизнес-команда посмотрела. Мы этого не сделали, потому что всю работу нужно было делать вручную. Вы также давали мне советы каждый день, не говоря уже о том, чтобы делать это, и пришли настраивать машину. ежедневно.
Итак, прежде всего, вы должны понять свою предпосылку, автоматизацию и есть ли у вас возможность автоматизировать.Если у вас ее нет, нет необходимости вкладывать слишком много средств в эту область.
Структурирование данных — источник интеллекта
В настоящее время область ИИ в основном опирается на насилие и взлом грубой силы, и в будущем могут быть и другие направления, но нынешний ИИ в основном полагается на накопление большого количества данных, чтобы что-то найти, поэтому он должен иметь накопление большого количества данных, в том числе большого количества данных для эксплуатации и технического обслуживания, могут быть данные базового уровня, машинные данные, данные об изменениях в эксплуатации и техническом обслуживании, а также некоторые данные, основанные на сценариях.Например, если вы устраните неисправность , существует ли более структурированный сбор данных? это очень важно. Сложность на уровне данных заключается в том, что в самом начале у большинства компаний данные по эксплуатации и техническому обслуживанию недостаточно структурированы, и структурирование будет не таким хорошим.Конечно, структурирование будет, но факторов структурирования не будет. достаточно.
Как и заявляет Alibaba, мы используем ИИ в сфере электронной коммерции. Наше самое большое преимущество в том, что мы продолжаем общаться с внешним миром. У нас есть структурированные данные о товарах, и другие компании могут извлекать из нас структурированные данные о товарах. в большинстве. Приходится самому анализировать и корректировать структуру продукта уже после того, как взял в руки, что очень сложно. Но Alibaba сама по себе естественна, и каждый поможет вам сделать структуру очень хорошей. То же самое относится и к эксплуатации и обслуживанию.Если вы хотите добиться большего прорыва в интеллектуальных технологиях, то как лучше структурировать данные — очень сложная задача. Вам трудно ясно мыслить. Эти два места — первое, о чем я думаю.
Интеллектуальные и наиболее подходящие сценарии эксплуатации и обслуживания
С текущей точки зрения, с точки зрения сценариев эксплуатации и обслуживания, интеллект особенно подходит для решения двух проблем, которые, кажется, одинаковы для всех отраслей: первая — это масштаб, а вторая — сложность. Масштаб означает, что у меня много машин, и я должен найти проблему с машиной среди множества машин. Это потому, что масштаб слишком велик. В настоящее время будет очень сложно решить эту проблему традиционными методами. Либо приходится вкладывать очень большое количество живой силы и т.д., что чуть больше потерь. Как лучше решить проблему масштаба после увеличения масштаба, разведка принесет некоторую помощь.
Во-вторых, сложность.Например, ваше приложение изменилось с исходного приложения на тысячи, десятки тысяч или сотни тысяч.В это время вам нужно выяснить, какое приложение представляет собой очень сложную проблему. Таким образом, людям очень сложно решить проблему сложности с помощью человеческого мозга, но машинам это относительно легко сделать. Это направление, в котором некоторые команды в Али надеются попытаться быть умными.Обычно мы увидим, соблюдены ли все вышеперечисленные предварительные условия. Если он у вас есть, вы можете изучить его. Поэтому я говорю, что Alibaba на самом деле находится на стадии исследования всей интеллектуальной эксплуатации и обслуживания, а не на стадии полномасштабной разработки.
Пять шагов к интеллектуальной эксплуатации и обслуживанию Alibaba
Кратко поговорим о том, что мы имеем в настоящее время в области разведки в различных областях, в пяти областях эксплуатации и обслуживания, для нас, какие возможности мы видим в разведке, в том числе и то, что мы делаем.
один. В центре внимания ресурсов стоит стоимость
1.Выбор инфраструктуры
Что касается ресурсов, то наиболее важным вопросом на уровне компании является стоимость. Ресурсы, которые вы предоставляете, имеют не самую низкую стоимость, и эта информация действительно может очень помочь. Например, первый вопрос заключается в том, как лучше спланировать модель компании, сеть и весь центр обработки данных.Зачем использовать интеллектуальные средства?Расположение центра обработки данных зависит от многих факторов, в дополнение к факторам государственной политики. необходимо учитывать множество других факторов, таких как климат и другие различные факторы, которые необходимо учитывать на данном этапе.
Вам необходимо анализировать путем накопления большого количества данных.Например, в Китае и за рубежом, какие места наиболее подходят для вашей стратегии развития бизнеса, и где они находятся?Для этого необходимо определить диапазон.На основе диапазона , Создание дополнительных людей. Что касается сети и моделей, мы считаем, что больше всего можно сделать то, что, вероятно, из-за того, что модель Alibaba отличается от модели некоторых компаний, больше машин Alibaba поступает из одного и того же отдела, и, по сути, один и тот же отдел обучает все машины Alibaba. . Это огромное преимущество, потому что все это в одной команде. Например, Alibaba начала строить единую диспетчерскую систему в прошлом году, и от этого будет большая польза, потому что все ресурсы всех поступают из одного и того же места, и это место собирает все потребности в ресурсах и данные всей Alibaba, и данные все в наличии.
Если вы объедините эти данные и ее фактическую работу, вы сможете лучше сделать вывод, например, какая модель является наиболее подходящей для Alibaba, которую Alibaba начала опробовать в прошлом году. Во всех процессах до прошлого года, Alibaba, например, модель моего сервера в следующем году, так называемая модель, значение упомянутой здесь модели в основном зависит от соотношения, а не от того, какой процессор выбрать для следующего поколения, то есть решение аппаратной разработки. Но фактор отношения, мы привыкли быть больше человеческого мозга, человеческого интеллекта. Человеческий интеллект более развит на определенном этапе, и после этого этапа люди не могут сравниться с машинами. Команда сказала, что конфигурация модели, которую мы собираемся купить в следующем году, вероятно, будет такой. В прошлом году мы внедрили систему, которая анализирует все данные и деньги, самое главное — деньги, а затем анализирует весь процесс, чтобы сделать вывод, что для нас наиболее рентабельно. Так что же такое правильная модель?
Если существует очень хорошая система вывода, позволяющая сделать вывод о том, как следует планировать вашу модель, сеть и IDC в будущем, она будет очень полезна в области затрат. Например, сеть, текущая разработка, 10G, 25G, 45G, 100G, что вы считаете наиболее подходящим для вашей компании? 80% большинства компаний определяются человеческим мозгом одним выстрелом, но на самом деле это может быть не так.
2. DCМозг, сделай управление более интеллектуальным
Мозг DC, сейчас это относительно горячо, эта область сейчас очень горяча, основная причина популярности может быть из-за статьи Google в прошлом году, Google опубликовал статью в прошлом году, в ней есть сообщение о том, что они прошли лучше Интеллектуальный, чтобы контролировать интеллект всего компьютерного зала и так далее. Например, контролируя выход кондиционера, то есть в какую сторону дует ветер, контролирует это, а потом экономит кучу денег для Google, очень немалых. Поэтому многие команды центров обработки данных сейчас изучают эту область. Потому что это поле такое дешевое.
Позже мы провели аналогию и сказали, что на самом деле большинству людей может быть трудно почувствовать центр обработки данных, но другое место, которое вы чувствуете легче всего, — это ваш офис. Например, мы уже говорили, что когда Alibaba прибыла летом, в офисе было слишком холодно, намного холоднее, чем на улице. Если мы сможем лучше контролировать температуру, это будет для нас большим подспорьем и может быть более экономичным для компании. Поэтому очень важно, как это сделать.
3.Важнейшим условием эластичного масштабирования является реализация автоматизации.
Эластичное масштабирование, это то, что хотят сделать бесчисленные команды эксплуатации и обслуживания.Команда НИОКР сказала, бизнес-команда сказала: я хочу 100 машин, но с ним не поспоришь.Наконец, 100 машин запустили, и вы обнаружили, что он использовал 10 машин.достаточно. Но и вам сложно запутать эту проблему с ним.Похоже, что бесчисленные команды эксплуатации и обслуживания пытаются эластично масштабироваться. Но, как я уже сказал, главная предпосылка эластичного масштабирования — это автоматизация, без которой автоматизация бессмысленна.
4.Портреты ресурсов улучшают соответствие ресурсов
Как лучше сочетать ресурсы, Alibaba пытается составить портрет ресурсов. Для всех онлайн-компаний тенденция относительно предсказуема, большинство онлайн-компаний, лишь несколько онлайн-компаний не так предсказуемы. Большинство онлайн-бизнесов являются моделью, и если прогноз очень хороший, а ресурсы разумно подобраны, это будет огромным подспорьем для ресурсов компании.
два. Может снизить количество сбоев, вызванных изменениями, на 30 %
В области изменений мы думаем, что первым вопросом является эффективность. В настоящее время в Alibaba работает около десятков тысяч сотрудников, занимающихся исследованиями и разработками, и мы передали работу по эксплуатации и техническому обслуживанию отделу исследований и разработок. Как мы можем сделать изменения более эффективными и менее чувствительными в процессе исследований и разработок? Мы считаем, что интеллект может сыграть огромную роль в этом направлении. Первый упомянутый выше случай — это интеллектуальное управление потоком в процессе распространения файлов. Например, релиз идет час, а это значит, что большинство R&D нужно смотреть в течение часа.Хотя он не должен смотреть его все время, он должен смотреть его после релиза, что достаточно энергозатратно.
Другое направление в том, что индустрия сейчас очень популярна без присмотра.Как мы можем добиться этого в процессе выпуска, лучше всего не иметь смысла для R&D.Я сделал это в определенный день.Пока тест проходит,я могу автоматически завершите этот процесс. , если есть проблема, просто немного контролируйте ее, а если проблемы нет, относитесь к ней так, как будто ее не было. Это еще более полезно для группы эксплуатации и обслуживания, если есть много групп НИОКР, или, конечно, если у вас есть группа эксплуатации и обслуживания, которая занимается этим, а это означает, что многие люди, занимающиеся эксплуатацией и обслуживанием, могут снять большой объем работы.
Поэтому, чтобы изменить эту область, мы больше всего надеемся развиваться в этом направлении. Глядя на попытки Alibaba в настоящее время, мы видим, что частота сбоев, вызванных изменениями, является самой высокой.В этом поле, которое было установлено, сбои, вызванные изменениями, могут быть уменьшены на 30%.Перехват в основном используется для перехвата проблем.
три. Мониторинг ИИ
Умный будильник
Эта область в настоящее время является самой горячей областью для внедрения ИИ в индустрию эксплуатации и обслуживания, и все компании делают это. Во-первых, это то, что делает Али, и Али не исключение, и мы делаем то же самое. Первый-это интеллект.Например, каждый, кто занимается эксплуатацией и обслуживанием, знает, что после того, как вы закончили писать бизнес, вам нужно настроить мониторинг и порог тревоги.Например, когда ЦП достигает предела, тревога должна быть отправлена, и тогда время отклика должно настораживать. Одно из направлений, которое пробует Али, состоит в том, чтобы позволить вам не совпадать.Али решает, при каких обстоятельствах вызывать полицию, основываясь на анализе, который очень помогает в исследованиях и разработках.
Обнаружение аномалий напрямую влияет на эффективность
Второй момент — обнаружение аномалий, чем занимаются многие компании. Самая большая причина, по которой выполняется обнаружение аномалий, заключается в эффективности.Если этого не делать, это на самом деле нормально, но требует много рабочей силы. Например, если транзакция падает, что именно?Например, для нас, если транзакция падает, пока она падает, нам нужно анализировать факторы. И этот фактор весьма вероятен, в конце концов вы обнаружите, что он вообще не имеет к нам никакого отношения, это может быть вызвано внешними причинами, национальными праздниками и т. д., различными факторами. Особенно малый бизнес, такой как наш зарубежный бизнес, очень сильно колеблется, и если он колеблется, это считается проблемой, которая оказывает огромное влияние на эффективность всей компании.
Поэтому мы думаем, что если обнаружение аномалий будет выполнено очень хорошо, это очень поможет нашей эффективности. Вообще говоря, все данные для обнаружения аномалий, эксплуатации и обслуживания представляют собой временные ряды, и существуют различные алгоритмы в соответствии с временными рядами Алгоритмы, обычно используемые в отрасли, перечислены выше. Алгоритм в верхнем левом углу — это алгоритм, исследованный самой Alibaba.Из нашей текущей тестовой ситуации мы видим, что уровень точности алгоритма, исследованного самой Alibaba, намного выше, чем в отрасли. Не буду вдаваться в подробности, самая главная причина в том, что эта штука скоро опубликует статью на конференции, и ее потом все увидят.
Четыре. Стабильность – принцип эффективности
Устранение неполадок должно быть точным и быстрым
Самое главное для нас в стабильности — это эффективность. Во-первых, это устранение сбоев. Сбои случаются в крупных компаниях, в больших масштабах и при более сложных бизнес-сценариях. Это неизбежно и обязательно произойдет. Ключ в том, как исправить сбой как можно скорее после его возникновения. В области устранения неисправностей Alibaba уже много лет перепробовала множество решений. Во многих случаях этот процесс нужно накапливать медленно. Причина кроется в чувстве доверия. Когда происходит неисправность, мы все говорим, что многие команды в компании находятся в состоянии высокого напряжения. В это время система была Эта система выбрасывает три решения, дает вам три предложения, а затем вы выбираете. Иногда опытный специалист по устранению неполадок видит, что три ваших предложения ненадежны. Когда из десяти отказов восемь, восьми раз не бывает. Если один из них будет таким четыре или пять раз, все не будут смотреть на эту систему в будущем. Она слишком ненадежна, и людям лучше судить. Эта система очень сложная и требует, чтобы вся компания твердо двигалась в этом направлении, и лучше накапливала много данных.
Для устранения неисправности Али пробовал только несколько очень простых случаев.На Али, например, компьютерный зал выходит из строя, потому что архитектура всей торговой системы Alibaba поддерживает несколько точек.Для нас, если при определенных обстоятельствах, Когда мы считаем, что компьютерный зал неисправен, мы можем автоматически переключать трафик и так далее. Однако теперь Али также считает, что разведка должна быть очень осторожной с точки зрения стабильности, особенно при устранении неисправностей.Если проблем нет, это окажет большее влияние.
Используйте интеллект для обнаружения ошибок
Раньше мы думали, что проблема с позиционированием не является большой проблемой, если я могу исправить это быстро и позиционировать, вы можете решить это медленно, и мне это не важно в течение двух дней. Но причина, по которой Али сейчас уделяет этому особое внимание, заключается в том, что поиск неисправностей требует много рабочей силы и нашей команды. Поэтому мы считаем, что необходим более интеллектуальный метод обнаружения неисправности, чтобы группа исследований и разработок могла больше сосредоточиться на других вещах. Например, как только неисправность вылезла наружу, НИОКР долго проверяли, и, на первый взгляд, не при чем. Так что это было потрачено впустую. Эта картина представляет собой систему, над которой мы сейчас работаем. От аномалии она отмечена единицей, двумя, тремя, четырьмя и пятью. В конце мы определили, где проблема. Наша цель чтобы, наконец, локализовать проблему на уровне кода, насколько это возможно, сети или инфраструктуры.
Пятерки. Хорошо справляться с крупномасштабной эксплуатацией и техническим обслуживанием
В настоящее время самым важным вопросом для Али является эффективность. Например, когда мы каждый год подготавливаем ресурсы для Double Eleven, многие знают, что у Alibaba есть полноценный стресс-тест. Одной из наиболее важных целей является корректировка мощностей. наиболее подходящее, например, приложение А может быть узким местом, но на самом деле, если оно хорошо согласовано, приложение А больше не является узким местом. Итак, как сделать фиксированный счет машины, чтобы получить наилучшее совпадение, мы обычно нажимали один раунд, чтобы настроить, а затем нажимали другой раунд, чтобы настроить снова, что очень потребляет энергию группы людей всю ночь. Мы считаем, что этот процесс нуждается в улучшении, и теперь он изменен на очень простой режим.После прихода трафика соотношение пропускной способности будет непрерывно регулироваться автоматически.У нас будет так называемое нажатие и нажатие, и регулировка соотношения при нажатии. Я считаю, что многие студенты, изучающие эксплуатацию и техническое обслуживание, сделали это, потому что бизнес-сторона дает вам индикатор, который вы должны вычислить, а очень точно рассчитать сложно. Игра во время нажатия означает, что вам не нужно быть очень точным, просто сделайте грубый расчет, и позже система автоматически отрегулирует баланс для вас.
Линия обороны, которую необходимо прорвать в будущем поле эксплуатации и обслуживания
Беспилотный, чтобы воплотить мечты в реальность
Я думаю, что самая большая проблема в области эксплуатации и обслуживания по-прежнему заключается в том, сможет ли он действительно стать беспилотным, и в этом процессе вообще никого нет.
С текущей точки зрения, самое главное для достижения беспилотного — это качество, если качество недостаточно хорошее, беспилотный путь невозможен. Кроме того, если есть проблема, можно ли ее отремонтировать автоматически и т. Д., Поэтому мы считаем, что беспилотная работа является самой большой проблемой в области эксплуатации и обслуживания. Можем ли мы превратить это в реальность и заложить основу для интеллекта. Если говорят, что все действия разведки требуют вмешательства человека, то в этом, в принципе, нет необходимости.
Интеллект приносит качественное изменение эффективности
Что касается интеллекта, то первый пункт — это вопрос эффективности, если этот интеллект будет немного хуже человеческого, то в эту штуку никто не поверит. Итак, как повысить эффективность, самое главное - увидеть качественное изменение эффективности, привнесенное интеллектом в область эксплуатации и обслуживания. Инвестиции в интеллект очень велики, и требуется много сбора и анализа. Поэтому лучше вносить качественные изменения, а не количественные.Если вносятся только количественные изменения, инвестиции могут не окупиться. Меньшее количество людей и более низкие затраты очень важны для всех компаний. Людям лучше инвестировать в более важные НИОКР и так далее.
Оригинальное время выпуска: 2017-11-23
Автор этой статьи: Би Сюань