Hadoop запускает количество слов в первом экземпляре

Hadoop

Цитировать:

За последние несколько недель произошло много всего. Я не писал в блог две недели. На этой неделе я наконец-то запустил экземпляр hadoop, а затем запустил официальный пример подсчета слов (используемый для подсчета количества вхождений слова в файле). Далее следует запись моего успешного запущенного экземпляра. Предпосылкой запуска является установка и настройка hadoop (вы можете обратиться к моему последнему блогу:запись псевдораспределенной установки hadoop)

Шаги выполнения:

1. Сначала подготовьте файл, содержащий слова, а затем загрузите этот файл на сервер Linux. содержание документа:

hello world hello hadoop
abc hadoop aabb hello word
count test hdfs mapreduce

2. Используйте команду hdfs, чтобы создать каталог для входного файла (команда hfds в основном такая же, как в linux, вы можете проверить ее на официальном сайте) hadoop fs -mkdir /input/wordcount Затем создайте выходной каталог /output для хранения текущих результатов для последующего хаупа.

3. Затем поместите файл в файловую систему hadoop hadoop fs -put /home/file1 /input/wordcount После создания вы можете использовать ls для проверки существования файла hadoop fs -ls -R /

4. Затем перейдите в раздел /hadoop/mapreduce of hadoop, там находится файл hadoop-mapreduce-examples-3.1.2.jar. Через hadoop jar hadoop-mapreduce-examples-3.1.2.jar можно увидеть, какие программы могут выполняться в этом официальном примере. следующее:

Вы можете увидеть множество встроенных программ, здесь мы используем количество слов. Выполнение заказа

hadop jar hadoop-mapreduce-examples-3.1.2.jar /input/wordcount /output/wordcount

Последние два параметра — это входной путь к файлу, который мы создали до hdfs, а второй параметр — выходной путь к файлу. Если нет, то hadoop создаст его сам.
5. Затем сначала будет выполняться процесс карты.В процессе сокращения его можно понимать как шаг разделяй и властвуй.Карта является промежуточным результатом обработки файлов на нескольких машинах, а затем результаты агрегируются посредством сокращения (редукция, агрегация). Более того, сначала выполняется карта, а затем выполняется редукция.

6. Перейдите к выходному файлу, чтобы просмотреть результаты. В output/wordcount будет три файла. Один с частью является выходным результатом. Вы можете использовать путь к выходному файлу hadoop fs -cat для просмотра результата.

Суммировать:

Хотя кажется, что шагов не так много и содержание относительно простое, ям все же достаточно много. Обратите внимание:
1. Для псевдораспределенного хаупа имя хоста должно быть задано хорошо, и оно должно соответствовать конфигурационному файлу, если не получится, то просто указать напрямую 127.0.0.1 (я все равно решил так)
2. Конфигурация памяти пряжи должна быть разумной. Если она слишком мала, она застрянет в текущей ссылке задания или на карте 0%. В это время перейдите на сайт пряжи, чтобы установить размер памяти (в соответствии с актуальные настройки памяти сервера) , я поставил после 2048M)
3. Если вы обнаружите, что застряли на определенной ссылке, не забудьте проверить логи в каталоге установки хаупа, существует множество типов логов, в том числе nodeManager, resourceManager и т. д., если выполнение не движется, будут соответствующие журналы и подсказки в журнале, чтобы помочь найти проблемы.