30 лучших вопросов и ответов на собеседовании Hive (2025 г.)

Вопросы для собеседования Hive для новичков и опытных

Вот вопросы и ответы на собеседовании Hive для новичков, а также для опытных кандидатов, желающих получить работу своей мечты.

Бесплатная загрузка PDF-файла: Вопросы для собеседования Hive

1) Объясните, что такое Hive?

Hive — это инструмент ETL и хранилища данных, разработанный на основе распределенной файловой системы Hadoop (HDFS). Это платформа хранилища данных для запроса и анализа данных, хранящихся в HDFS. Hive — это программное обеспечение с открытым исходным кодом, которое позволяет программистам анализировать большие наборы данных на Hadoop.

2) Когда использовать Hive?

Улей полезен при изготовлении информационное хранилище Приложения
Когда вы имеете дело со статическими данными вместо динамических данных
Когда приложение имеет высокую задержку (большое время отклика)
Когда поддерживается большой набор данных
Когда мы используем запросы вместо сценариев

3) Упомяните, какие существуют режимы Hive?

В зависимости от размера узлов данных в Hadoop Hive может работать в двух режимах. Эти режимы,

Локальный режим
Режим уменьшения карты

4) Укажите, когда использовать режим уменьшения карты?

Режим уменьшения карты используется, когда:

Он будет работать с большим количеством наборов данных, и запросы будут выполняться параллельно.
Hadoop имеет несколько узлов данных, и данные распределяются по разным узлам, которые мы используем в этом режиме Hive.
Необходимо обеспечить обработку больших наборов данных с более высокой производительностью.

5) Упомяните ключевые компоненты Hive Architecture?

Ключевые компоненты Hive Architecture включают:

Пользовательский интерфейс
составитель
Метастор
Водитель
Выполнить двигатель

6) Упомяните, какие типы таблиц доступны в Hive?

В Hive доступно два типа таблиц.

Управляемая таблица: В управляемой таблице и данные, и схема находятся под контролем Hive.
Внешняя таблица: во внешней таблице Hive управляет только схемой.

7) Объясните, что такое Metastore в Hive?

Metastore — это центральный репозиторий Hive. Он используется для хранения информации о схеме или метаданных во внешней базе данных.

8) Назовите, из чего состоит Улей?

Улей состоит из 3-х основных частей,

Клиенты улья
Услуги улья
Хранение улья и вычисления

9) Укажите, какие типы баз данных поддерживает Hive?

Для хранения метаданных одного пользователя Hive использует базу данных derby, а для метаданных нескольких пользователей или общих метаданных Hive использует MYSQL.

10) Упомяните классы чтения и записи Hive по умолчанию?

Классы чтения и записи Hive по умолчанию:

TextInputFormat/HiveIgnoreKeyTextOutputFormat
ФорматВходФайлаПоследовательности/ФорматФайлПоследовательностиВыхода

11) Что такое индексация в Hive?

Индексирование Hive — это метод оптимизации запросов, позволяющий повысить скорость поиска запросов в определенных столбцах таблицы.

12) Почему Hive не подходит для OLTP-систем?

Hive не подходит для систем OLTP, поскольку он не обеспечивает функции вставки и обновления на уровне строк.

13) Упомяните, в чем разница между Hbase и Hive?

Разница между Hbase и Hive заключается в том,

Hive позволяет использовать большую часть SQL запросы, но HBase не разрешает запросы SQL
Hive не поддерживает операции вставки, обновления и удаления на уровне записей в таблице.
Hive — это платформа хранилища данных, тогда как HBase — это база данных NoSQL.
Hive работает поверх MapReduce, HBase работает поверх HDFS.

14) Объясните, что такое переменная Hive? Зачем мы его используем?

Переменная Hive создается в среде Hive, на которую могут ссылаться сценарии Hive. Он используется для передачи некоторых значений запросам куста, когда запрос начинает выполняться.

15) Упомяните, что такое функциональность ObjectInspector в Hive?

Функциональность ObjectInspector в Hive используется для анализа внутренней структуры столбцов, строк и сложных объектов. Это позволяет получить доступ к внутренним полям внутри объектов.

16) Упомяните, что такое (HS2) HiveServer2?

Это интерфейс сервера, который выполняет следующие функции.

Это позволяет удаленным клиентам выполнять запросы к Hive.
Получить результаты упомянутых запросов

Некоторые расширенные функции, основанные на Thrift RPC в последней версии, включают:

Многоклиентский параллелизм
Аутентификация

17) Упомяните, что делает процессор запросов Hive?

Процессор запросов Hive преобразует граф заданий MapReduce с учетом времени выполнения. Чтобы задания могли выполняться в порядке зависимостей.

18) Укажите, каковы компоненты процессора запросов Hive?

Компоненты процессора запросов Hive включают:

Генерация логического плана
Генерация физического плана
Механизм исполнения
Операторы
UDF и UDAF
Оптимизатор
синтаксический анализатор
Семантический анализатор
Проверка типа

19) Упомяните, что такое разделы в Hive?

Hive организует таблицы по разделам.

Это один из способов разделения таблиц на разные части на основе ключей разделов.
Разделение полезно, когда в таблице есть один или несколько ключей раздела.
Ключи разделов — это основные элементы, определяющие способ хранения данных в таблице.

20) Укажите, когда выбирать «Внутреннюю таблицу» и «Внешнюю таблицу» в Hive?

В Hive вы можете выбрать внутреннюю таблицу,

Если данные обработки доступны в локальной файловой системе
Если мы хотим, чтобы Hive управлял полным жизненным циклом данных, включая удаление

Вы можете выбрать Внешнюю таблицу,

Если данные обработки доступны в HDFS
Полезно, когда файлы используются за пределами Hive.

21) Укажите, можем ли мы назвать представление так же, как имя таблицы Hive?

Нет. Имя представления должно быть уникальным по сравнению со всеми другими таблицами и представлениями, присутствующими в той же базе данных.

22) Упомяните, что такое просмотры в Hive?

В Hive представления аналогичны таблицам. Они создаются на основе требований.

Мы можем сохранить любые данные набора результатов в виде представления в Hive.
Использование аналогично представлениям, используемым в SQL.
Над представлением можно выполнять все типы операций DML.

23) Объясните, как Hive десериализует и сериализует данные?

Обычно при чтении/записи данных пользователь сначала взаимодействует с входным форматом. Затем он подключается к устройству чтения записей для чтения/записи записей. Для сериализации данных данные передаются в строку. Здесь десериализованный пользовательский интерфейс использует инспектор объектов для десериализации данных в полях.

24) Что такое ведра в Hive?

Данные, присутствующие в разделах, можно разделить на сегменты.
Деление осуществляется на основе хеша конкретных столбцов, выбранных в таблице.

25) Как включить сегменты в Hive?

В Hive вы можете включить сегменты с помощью следующей команды:

set.hive.enforce.bucketing=true;

26) Можно ли в Hive перезаписать конфигурацию Hadoop MapReduce в Hive?

Да, вы можете перезаписать конфигурацию Hadoop MapReduce в Hive.

27) Объясните, как изменить тип данных столбца в Hive?

Вы можете изменить тип данных столбца в Hive с помощью команды

ALTER TABLE table_name CHANGE column_name column_name new_datatype;

28) Упомяните, в чем разница между упорядочиванием и сортировкой в Hive?

SORT BY сортирует данные внутри каждого редуктора. Вы можете использовать любое количество редукторов для операции SORT BY.
ORDER BY сортирует все данные вместе, которые должны пройти через один редуктор. Таким образом, ORDER BY в hive использует один

29) Объясните, когда использовать взрыв в Hive?

Разработчики Hadoop иногда принимают массив в качестве входных данных и преобразовать в отдельную строку таблицы. Чтобы преобразовать сложные типы данных в нужные форматы таблиц, Hive использует разнесение.

30) Упомяните, как можно остановить запрос формы раздела?

Вы можете остановить запрос формы раздела, используя предложение ENABLE OFFLINE с оператором ALTER TABLE.

Эти вопросы на собеседовании также помогут вам в устной речи. Обратитесь к нашим Учебные пособия по улью для дополнительного преимущества на собеседовании.

Вы могли бы:

3 комментариев

Это очень полезно……..полезно……..полезно для подготовки к собеседованию, а также для самоподготовки.

Ответить

Спасибо! Это очень полезно!

Я думаю, возможно, вы могли бы добавить несколько вопросов о «асимметрии данных», потому что меня обычно просили ответить на эти вопросы, когда я был интервьюером.