Выпущен Apache Hadoop 3.1.0, который, наконец, поддерживает GPU и FPGA!

задняя часть Apache Hadoop Yarn
Редактор отдела планирования|Наталья
Компиляция | Дебра, невежественная
Руководство по передовой ИИ:6 апреля Apache Hadoop официально выпустил версию 3.1.0, которая является первой второстепенной версией серии Hadoop 3.x 2018 года с некоторыми существенными изменениями по сравнению с предыдущей версией Hadoop 3.0. Следует отметить, что эта версия пока не подходит для производственной среды, и пользователям, которым необходимо использовать ее в производственной среде, необходимо дождаться выпуска версии 3.1.1 или 3.1.2. Но 3.1.0 также важен, потому что он, наконец, поддерживает графические процессоры и ПЛИС.

Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)
основные улучшения

Основные изменения, внесенные в выпуск Hadoop 3.1.0, кратко описаны ниже:

  • Платформа сервисов Yarn обеспечивает поддержку долговременных сервисов в YARN в качестве платформы оркестровки контейнеров для управления контейнерными сервисами, работающими в YARN, поддерживая контейнеры Docker и традиционные контейнеры.


    Подробнее см.:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/yarn-service/Overview.html


  • YARN поддерживает планирование и изоляцию на основе графического процессора (контейнеры Docker и не-Docker).


    Подробнее см.:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/UsingGpus.html


  • YARN поддерживает планирование и изоляцию на основе FPGA (контейнеры Docker и не-Docker).


    Подробнее см.:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/UsingFPGA.html


  • В YARN поддерживаются дополнительные ограничения конфигурации. Эти ограничения имеют решающее значение для производительности и отказоустойчивости приложений, особенно тех, которые содержат долго работающие контейнеры, такие как обслуживание, машинное обучение и потоковые рабочие нагрузки. Планирование связанных задач в одной и той же стойке (ограничения сходства) может снизить затраты на сеть, распределить задачи между машинами (ограничения анти-аффинити), чтобы уменьшить влияние ресурсов, или ограничить количество задач для определенной группы узлов (ограничения кардинальности), чтобы уменьшить количество забастовок. баланс между ними.


    Подробнее см.:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/PlacementConstraints.html


  • Позволяет администраторам указывать определенное количество ресурсов для очередей (например, определенный объем памяти, виртуальных ядер, графических процессоров и т. д.) вместо указания процентных значений, что дает администраторам больший контроль над ресурсами, необходимыми для данной конфигурации очереди.


    Подробнее см.:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html


  • Хранилище, предоставляемое 3.1.0, позволяет отображать данные, хранящиеся за пределами HDFS, и обращаться к ним из HDFS. Это гетерогенное хранилище, реализованное путем введения в DataNode нового типа хранилища PROVIDED.


    Подробнее см.:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-project-dist/hadoop-hdfs/HdfsProvidedStorage.html

другие обновления

В версии 3.1.0 сообщество Hadoop исправило 768 проблем, задокументированных JIRA (https://s.apache.org/apache-hadoop-3.1.0-all-tickets), в том числе:

  • 141, связанных с Hadoop Common, включая улучшения, связанные с S3/S3A/S3Guard.

  • 266, связанных с HDFS

  • 329 связанных с ПРЯЖЕЙ

  • 32 связанных с MapReduce

Дополнительные изменения см. в официальных примечаниях к выпуску:

http://hadoop.apache.org/docs/r3.1.0/hadoop-project-dist/hadoop-common/release/3.1.0/RELEASENOTES.3.1.0.html

Хадуп старый?

Отчет Gartner Hype Cycle for Data Management, опубликованный в сентябре 2017 года, показывает, что многие организации начали пересматривать свою роль в информационной инфраструктуре из-за сложности и удобства использования всего стека Hadoop. Gartner считает, что выпуски Hadoop были постепенно прекращены и не достигли плато производительности. Напротив, предприятия ищут другие более конкурентоспособные и удобные облачные продукты.

Hadoop действительно стареет? Могут ли на этот раз основные улучшения версии 3.1.0 вдохнуть новую жизнь в эту старомодную платформу больших данных? Что вы думаете?

Оригинальная ссылка:

https://lists.apache.org/thread.html/8313e605c0ed0012f134cce9cc6adca738eea81feccea99c8de87cd9@%3Cgeneral.hadoop.apache.org%3E

http://hadoop.apache.org/docs/r3.1.0/index.html

https://www.gartner.com/newsroom/id/3809163


Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)