Учебник Hadoop для начинающих по серверной части: концепции

Предисловие:

Всем привет, я韩数. Расстояние от нашей последней серииВводное руководство по Nginx, написанное для серверной частиПрошло 25 дней, и две статьи, связанные с блокчейном, перемежаются посередине. На самом деле, я сдерживался последние 20 дней. Это последняя серия руководств по Hadoop для начинающих, написанных для бэкэнда. Их еще много. технические детали самого Hadoop.Hadoop基础环境的搭建,分布式伪分布式的部署,集群启动的准备,hdfs文件系统,MR编程模型, и наконец优化Подождите, объем работы по написанию всего комплекта довольно большой.К счастью, у меня скоро зимние каникулы (счастливые), что позволяет мне иметь достаточно времени и сил, чтобы написать этот комплект туториалов.Во-первых, это помочь себе в Пришло время глубже понять эти знания, и я надеюсь, что они помогут тем друзьям, которые только начинают работать с большими данными, понять и использовать технологию Hadoop. Ведь всем известно, что качество технических туториалов, найденных в интернете, неравномерно, и вы случайно наткнетесь на яму:

Комп, сигарета, туториал полдня, а отладка долго, но это неправильно.Хочется послать автора в небо.

Это сыро и мокро. Эта статья является первой из полного набора вводных руководств по Hadoop. Мы все же начнем с самых основных понятий. Что такое большие данные и как большие данные влияют на нашу жизнь? Что такое Hadoop и каковы преимущества Hadoop по сравнению с другими технологиями работы с большими данными? Поняв эти проблемы, я верю, что снова изучу большие данные.Хотя я не могу сказать, что есть бафф-бонус, по крайней мере, я знаю, что это за вещь, которую я хочу изучить дальше.

Без ерунды, сразу к делу

Что такое большие данные:

Большие данные: в основном относится к无法在一定范围Сбор данных, которые собираются, управляются и обрабатываются с помощью обычных программных инструментов, требует новых режимов обработки, обеспечивающих более эффективные возможности принятия решений, понимания и оптимизации процессов.海量，高增长率和多样化的信息资产.

Объяснение одним предложением:Большие данные — это огромное количество данных, слишком много данных для обработки традиционными решениями.

Конечно объем данных не самое главное, важны скрытые данные信息, Эта информация имеет огромное значение как в бизнесе, так и в исследованиях. Компании электронной коммерции могут профилировать каждого пользователя, извлекая информацию из этих данных, и рекомендовать подходящие продукты пользователям для увеличения покупок. Конечно, вы также можете настроить, кстати. цена за убийство фамильяра или что-то в этом роде.

Блок больших данных:

Но мы, в конце концов, прилежно изучаем естественные науки.Вы говорите, большие данные и большие данные, насколько велики большие данные? Чтобы решить эту проблему и уменьшить разрыв, ученые сформулировали ряд единиц данных, от маленьких до больших:

bit Byte KB MB GB TB PB EB ZB YB BB NB(牛逼)иDB（呆逼）

Конечно, какой смысл просто говорить об этих блоках, откуда мне знать, сколько данных эти блоки могут хранить? Для того, чтобы всем было проще и непосредственнее ощутить силу этих блоков данных, я нашел несколько маленьких каштанов:

Объем данных печатной продукции, произведенной по всему миру, составляет около 200 петабайт.
Общее количество слов, произнесенных людьми в мире, составляет около 5ЭБ.
Общий объем данных, сгенерированных известным зарубежным сайтом P station в 2017 году, составил 3732 ПБ.
Память, необходимая для одного миллиона китайских иероглифов, составляет около 2 МБ.

Казалось, что только что было примешано что-то странное.

Особенности больших данных:

大量：Необходимые, не стесняясь называть это большими данными.
高速：Так много данных нужно переварить быстро, и нельзя ждать десятилетиями, чтобы справиться с ними.Оборот Double 11 этого года не может быть подсчитан до объявления Double 11 в следующем году.
多样：Различные сценарии будут генерировать разные данные: Youku — это данные о просмотре пользователем, видеоданные, QQ Music — музыкальные данные.
低价值密度：это значитДаже если объем данных большой, мы всегда фокусируемся на конкретных частях, а не на всем, так же, как дядя-милиционер настраивает мониторинг, данные годовой и месячной давности ему обычно ни к чему, ему нужны только данные мониторинга нескольких ключевых узлов.

Не говоря уже о сценариях приложений, которые все являются сценариями приложений.

Что такое Хадуп?

Зная, что такое большие данные, мы должны задуматься над другим вопросом, куда мне поместить столько данных?

杠精：Не очевидно, конечно, ставить на жёсткий диск, или куда ещё можно записать на бумаге?我：Я знаю жесткий диск, но если этот жесткий диск поврежден, данные будут потеряны?

路人: Ты не тупой, можешь поставить еще несколько винчестеров и поставить их отдельно?

В настоящее времяHadoopВот, братцы, все на боку наклонились, слишком уж неуклюж ваш метод, предоставьте его мне, а я справлюсь за вас легко, тривиально.

HadoopЭто распределенная системная инфраструктура, разработанная Apache Foundation, которая в основном используется для решения задач хранения и анализа больших данных.

Конечно,HadoopиSpringто же, до сих пор нельзя было понять только какHadoopНа этой технологии, как вы говорили другим, основан мой новый проект электронной коммерции.SpringЕсли вы это напишете, окружающие точно не подумают, что вы только этим пользуетесьSpring, подумает, что вы могли бы использоватьSpring MVC,boot,JPAи так далееSpringэкологические технологии. Так же,HadoopТо же самое верно не только от имениHadoopЭта технология сама по себе, но также представляет окружающиеHadoopтехнология экология.

И не усложняйте, думая, что эти концепции распределенного хранения настолько глубоки.На самом деле, официальная концепция действительно немного абстрактна и неясна, но я думаю,Любая теория должна исходить из жизни, потому что жизнь дает им вдохновение, но жизнь не очень сложна, поэтому любая глубокая и сложная теория должна найти в жизни доступное для понимания объяснение.

Что такое распределенное хранилище? Я вам не скажу. Я уже делал это, когда учился в средней школе. В то время было популярно читать фантастические романы. Вы знаете такой фолиант. Если декан конфискует его, все кончено, никто не обязан его читать, поэтому в то время было популярно разбирать фантастический роман страница за страницей, у каждого ученика было несколько страниц, и все читали друг друга, даже если учитель находил, это было просто конфискованы, некоторые из них не могут быть уничтожены. Понимаете, есть распределенное хранилище и хранилище, разве это не распределенное хранилище? Чтобы предотвратить конфискацию книги учителем и неполную книгу, купите три экземпляра и храните страницы отдельно. Разве это не просто создание дополнительных резервных копий? Это не так сложно. Концепция, выглядящая как ученый.

История развития Hadoop:

Об этом говорить особо нечего.Я перечислю здесь несколько ключевых моментов.Заинтересованные друзья могут спуститься вниз и поискать сами,и много поискать в интернете.

Фреймворк под названием Dung Cutting написал фреймворк полнотекстового поиска на java —Lucene
Когда объем данных большой,LuceneПроизводительность не может идти в ногу.
Так совпало, что сам Google тоже занимается полнотекстовым поиском, почему у других производительность выше?
Изучив Google, я сделалNutch
Позднее Google выпустил некоторые изGFSиMapReduceДетали.
Dung Cutting увидел этот ответ и дал его себе, поэтому потребовалось два года, обратите на это внимание в свободное время и сам это понял.DFSиMapReduce, `Nutch · производительность упоминается одним словом, одним словом, потрясающий.
позжеHadoopв видеLuceneподпроектNutchЧасть его была официально введена в Apache Foundation.
потомMap-ReduceиNDFSОдна часть интегрирована вHadoopВнутри проекта,HadoopТак родился.

Почему другие люди могут придумывать такие удивительные вещи в свободное время, а я не могу в свободное время подняться к королевской славе Есть ли посредник, который имеет значение?

Хадуп дистрибутив:

Как и в случае с Linux, разные компании настроили на этой основе свои собственные дистрибутивы.HadoopСуществует три основных версии дистрибутива, а именно:

Версия Apache: Самая примитивная (самая базовая) версия, лучшая для начального обучения, в конце концов, это место рождения, и родословная тоже самая положительная.
Cloudera: Больше в крупных интернет-компаниях.
Hortonworks: Документация относительно полная.

Не думайте об этом, мы должны выбрать Apache, и нет другой причины, просто потому, что он базовый, простой и не стоит денег.

Каковы преимущества Hadoop?

HadoopПочему это так здорово, что когда мы сейчас говорим о разработке больших данных, мы думаем о Hadoop?

Ведь написать программу - это не влюбиться.Нет такого понятия,что я все равно люблю тебя,даже если ты нехороший.Мы очень плохие,кто из них лучше использовать.

HadoopСтатус возможности запутаться в реках и озерах в основном зависит от следующих четырех пунктов:

Высокая надежность:HadoopБазовый использует несколько копий данных, даже еслиHadoopОтказ вычислительного элемента или хранилища не приведет к потере данных.Возьмите рассмотренный выше пример распределенного хранилища.
Высокая масштабируемость: Распределяйте данные задач между кластерами, которые можно легко масштабировать до тысяч узлов. То есть в один прекрасный день эксплуатация и техническое обслуживание отправились на работу с утра, а хранилища кластера не хватило, но это не было большой проблемой, ведь добавление новой ноды или удаление ноды в кластер занимало минуты.
Эффективность:существуетMapReduceпод мыслью,HadoopРаботает параллельно для ускорения обработки задач.
Высокая отказоустойчивость: Возможность переназначать невыполненные задачи.

Вы сказали кучу плюсов,HadoopНедостатков нет? Должен быть, но это будет написано позжеHDFS,MRЯ могу сказать, когда, или я не знаю сейчасHdfsЧто такое, о недостатках говорить нехорошо,Точно так же, как говорить плохо о людях, это работает, только если вы говорите перед другими.

Начнем техническое резюме:

Сегодняшняя статья в целомHadoopВ первой части серии руководств в основном рассказывается о некоторых основных понятиях в соответствии с моей привычкой вести блоги.HadoopУ меня есть базовое понимание.Кроме того,технические статьи я пишу в более разговорной форме,а там много ерунды.Приглашаю всех вносить предложения.Не волнуйтесь,изменить не буду,но все равно очень серьезно относитесь к написанию романов, а вы бред.Читать гораздо быстрее, чем те статьи, которые играют понятиями в глубину (смешно), а следующая статья, мы тоже концептуальная статья, в основном оHDFS,YARN,MRЭти триHadoopОсновная концепция, а затем реальный контакт с кодом.

Большое спасибо за друзей, которые могут это прочитать.Ваша поддержка и внимание являются движущей силой для меня, чтобы настаивать на качественном обмене.

Соответствующий код был загружен на мой github. должен заказатьstarах ах ах ах ах

Тысячи рек и гор - это всегда любовь, можешь подарить мне звезду?

Заметки о разработке Hanshu

Добро пожаловать лайк, следуйте за мной,ешь привет фрукты(смешной)