Вопросы для собеседования на ульевом заводе

Большие данные

Это 24-й день моего участия в Gengwen Challenge.Подробности о мероприятии:Обновить вызов

1 Архитектура улья

Метаданные Hive по умолчанию хранятся в базе данных derby и не поддерживают мультиклиентский доступ, поэтому метаданные хранятся в MySQl для поддержки мультиклиентского доступа.image.png

2 Сравнение улья и базы данных

Hive и базы данных не имеют ничего общего, кроме схожих языков запросов.

  1. Расположение хранения данных

  Hive хранится в HDFS. Базы данных хранят данные на блочных устройствах или в локальной файловой системе.

  1. Обновление данных

  Перезапись данных в Hive не рекомендуется. Данные в базе данных обычно необходимо часто изменять.

  1. задержка выполнения

  Hive имеет высокую задержку выполнения. Задержка выполнения базы данных низкая. Конечно, это условно, то есть масштаб данных небольшой.Когда масштаб данных превышает вычислительную мощность базы данных, параллельные вычисления Hive явно могут показать свои преимущества.

  1. шкала данных

  Hive поддерживает очень крупномасштабные вычисления данных; масштаб данных, который может поддерживать база данных, невелик.

3 Внутренние и внешние таблицы

метаданные, необработанные данные

  1. При удалении данных:

   Внутренняя таблица: метаданные, необработанные данные, удалить все
   Внешняя таблица: только удаление метаданных

  1. В производственной среде компании, когда создавать внутреннюю таблицу и когда создавать внешнюю таблицу?

  Подавляющее большинство сценариев в компании — это внешние таблицы.
  Используемая вами временная таблица создаст внутреннюю таблицу;

4 4 По разнице

  1. Сортировать по: глобальная сортировка, только один Редуктор;
  2. Сортировать по: по порядку внутри раздела;
  3. Распределить по: аналогично разделу в MR, он разбит на разделы и используется вместе с сортировкой по.
  4. Кластеризация по: если поля «Распределить по» и «Сортировка по» совпадают, можно использовать метод «Кластеризация по». В дополнение к функции «Распределить по» функция «Сгруппировать по» также имеет функцию «Сортировать по». Однако сортировка может быть только в порядке возрастания, и правило сортировки не может быть указано как ASC или DESC.

   Order By редко используется в производственной среде, что может легко привести к OOM.
   Сортировать по + Распределить по чаще используются в производственной среде.

5 системных функций

  1. Функции date_add, date_sub (сложение и вычитание дат)
  2. Функция next_day (связанная с индикатором недели)
  3. Функция date_format (сортировка даты по формату)
  4. Функция Last_day (запрашивает последний день месяца)
  5. функция collect_set
  6. get_json_object анализирует функцию json
  7. NVL(выражение1, выражение2)

   Если выражение1 равно null, NVL возвращает значение выражения2, в противном случае возвращает значение выражения1.

6 пользовательских функций UDF, UDTF

  1. Настраивали ли вы в проекте функции UDF и UDTF и какие проблемы с ними решались, а также настраиваемые шаги?

    1. Используйте функции UDF для анализа открытых полей; используйте функции UDTF для анализа полей событий.
    2. Пользовательская пользовательская функция: наследовать пользовательскую функцию, переопределить метод оценки
    3. Пользовательский UDTF: унаследован от GenericUDTF, переопределяет 3 метода: инициализация (имя и тип пользовательского выходного столбца), обработка (возврат результата в пересылку (результат)), закрытие
  2. Зачем настраивать UDF/UDTF?

  Из-за настраиваемой функции вы можете скрыть журнал, чтобы распечатать журнал, ошибку или исключение данных, что удобно для отладки.
   также требуется при внедрении сторонних пакетов jar.

7 оконных функций

  1. Rank

    1. RANK() будет повторяться, когда порядок тот же, общее количество не изменится
    2. DENSE_RANK() будет повторяться, когда порядок будет таким же, общее количество уменьшится
    3. ROW_NUMBER() будет рассчитываться по порядку
  2. OVER(): указывает размер окна данных, в котором работает функция анализа, который может варьироваться от строки к строке.

    1. CURRENT ROW: текущая строка
    2. n ПРЕДЫДУЩИЙ: перейти вперед на n строк данных
    3. n FOLLOWING: следующие n строк данных
    4. UNBOUNDED: начальная точка, UNBOUNDED PRECEDING означает начальную точку спереди, UNBOUNDED FOLLOWING означает конечную точку сзади
    5. LAG(col,n): перейти вперед к n-й строке данных
    6. LEAD(col,n): следующая n-я строка данных
    7. NTILE(n): распределяет строки в упорядоченном разделе по группам указанных данных.Каждая группа имеет номер, и номер начинается с 1. Для каждой строки NTILE возвращает номер группы, к которой принадлежит строка. Примечание: n должен быть типа int.
  3. Рукописный TopN

8 Разница между Union и Union all

  1. union выполнит дедупликацию результирующего набора union, что менее эффективно, чем union all
  2. union all не выполняет дедупликацию результирующего набора, поэтому он эффективен