Las 30 mejores preguntas y respuestas de entrevistas de Hive (2025)

Preguntas de la entrevista de Hive para principiantes y experimentados

Aquí están las preguntas y respuestas de la entrevista de Hive para principiantes y candidatos experimentados para obtener el trabajo de sus sueños.

Descarga gratuita de PDF: Preguntas de la entrevista de Hive


1) Explique ¿Qué es Hive?

Hive es una herramienta de almacenamiento de datos y ETL desarrollada sobre el sistema de archivos distribuido de Hadoop (HDFS). Es un marco de almacenamiento de datos para consultar y analizar datos almacenados en HDFS. Hive es un software de código abierto que permite a los programadores analizar grandes conjuntos de datos en Hadoop.


2) ¿Cuándo usar Hive?

  • Hive es útil al hacer almacenamiento de datos Postulaciones
  • Cuando se trata de datos estáticos en lugar de datos dinámicos
  • Cuando la aplicación tiene una latencia alta (tiempo de respuesta alto)
  • Cuando se mantiene un gran conjunto de datos
  • Cuando usamos consultas en lugar de secuencias de comandos

3) Mencione cuáles son los diferentes modos de Hive.

Según el tamaño de los nodos de datos en Hadoop, Hive puede operar en dos modos. Estos modos son,

  • Modo local
  • Modo de reducción de mapa

4) ¿Menciona cuándo usar el modo de reducción de mapa?

El modo de reducción de mapa se utiliza cuando,

  • Funcionará en una gran cantidad de conjuntos de datos y la consulta se ejecutará de forma paralela.
  • Hadoop tiene múltiples nodos de datos, y los datos se distribuyen en diferentes nodos que usamos Hive en este modo
  • Es necesario lograr el procesamiento de grandes conjuntos de datos con un mejor rendimiento

5) ¿Mencione los componentes clave de Hive Architecture?

Los componentes clave de Hive Architecture incluyen,

  • Interfaz de usuario
  • Compilador
  • Metatienda
  • Destornillador
  • Ejecutar motor
Preguntas de la entrevista de la colmena
Preguntas de la entrevista de la colmena

6) Mencione cuáles son los diferentes tipos de tablas disponibles en Hive.

Hay dos tipos de tablas disponibles en Hive.

  • tabla administrada: en la tabla administrada, tanto los datos como el esquema están bajo el control de Hive
  • Mesa exterior: En la tabla externa, solo el esquema está bajo el control de Hive.

7) Explique ¿Qué es Metastore en Hive?

Metastore es un repositorio central en Hive. Se utiliza para almacenar información de esquema o metadatos en la base de datos externa.


8) Menciona de qué está compuesto Hive?

La colmena consta de 3 partes principales,

  1. Clientes de colmena
  2. Servicios de colmena
  3. Almacenamiento y computación de Hive

9) Mencione qué tipo de base de datos admite Hive.

Para el almacenamiento de metadatos de un solo usuario, Hive usa una base de datos derby y para metadatos de múltiples usuarios o caso de metadatos compartidos, Hive usa MYSQL.


10) ¿Mencionar las clases de lectura y escritura predeterminadas de Hive?

Las clases de lectura y escritura predeterminadas de Hive son

  1. Formato de entrada de texto/Formato de salida de texto de HiveIgnoreKey
  2. Formato de entrada de archivo de secuencia/Formato de salida de archivo de secuencia

11) ¿Qué es la indexación en Hive?

La indexación de Hive es una técnica de optimización de consultas para mejorar la velocidad de búsqueda de consultas en ciertas columnas de una tabla.


12) ¿Por qué Hive no es adecuado para sistemas OLTP?

Hive no es adecuado para los sistemas OLTP porque no proporciona la función de inserción y actualización en el nivel de fila.


13) Menciona cual es la diferencia entre Hbase y Hive?

La diferencia entre Hbase y Hive es,

  • Hive habilita la mayoría de los SQL consultas, pero HBase no permite consultas SQL
  • Hive no admite operaciones de inserción, actualización y eliminación de nivel de registro en la tabla
  • Hive es un marco de almacenamiento de datos, mientras que HBase es una base de datos NoSQL
  • Hive se ejecuta en la parte superior de MapReduce, HBase se ejecuta en la parte superior de HDFS

14) Explique qué es una variable Hive. ¿Para qué lo usamos?

La variable de Hive se crea en el entorno de Hive al que pueden hacer referencia los scripts de Hive. Se utiliza para pasar algunos valores a las consultas de colmena cuando la consulta comienza a ejecutarse.


15) ¿Mencione qué es la funcionalidad ObjectInspector en Hive?

La funcionalidad ObjectInspector en Hive se usa para analizar la estructura interna de las columnas, filas y objetos complejos. Permite acceder a los campos internos dentro de los objetos.


16) ¿Mencione qué es (HS2) HiveServer2?

Es una interfaz de servidor que realiza las siguientes funciones.

  • Permite a clientes remotos ejecutar consultas contra Hive
  • Recuperar los resultados de las consultas mencionadas

Algunas características avanzadas basadas en Thrift RPC en su última versión incluyen

  • Concurrencia multicliente
  • Autenticación

17) Mencione qué hace el procesador de consultas de Hive.

El procesador de consultas de Hive convierte el gráfico de los trabajos de MapReduce con el marco de tiempo de ejecución. Para que los trabajos se puedan ejecutar en el orden de las dependencias.


18) ¿Cuáles son los componentes de un procesador de consultas de Hive?

Los componentes de un procesador de consultas de Hive incluyen,

  • Generación de planes lógicos
  • Generación de planos físicos
  • Motor de ejecución
  • de telecomunicaciones
  • UDF y UDAF
  • Optimizador
  • Analizador
  • Analizador semántico
  • Comprobación de tipo

19) Mencione ¿Qué son las particiones en Hive?

Hive organiza las tablas en particiones.

  • Es una de las formas de dividir tablas en diferentes partes según las claves de partición.
  • La partición es útil cuando la tabla tiene una o más claves de partición.
  • Las claves de partición son elementos básicos para determinar cómo se almacenan los datos en la tabla.

20) ¿Menciona cuándo elegir "Tabla interna" y "Tabla externa" en Hive?

En Hive puede elegir la tabla interna,

  • Si los datos de procesamiento están disponibles en el sistema de archivos local
  • Si queremos que Hive gestione el ciclo de vida completo de los datos, incluida la eliminación

Puede elegir Mesa externa,

  • Si los datos de procesamiento están disponibles en HDFS
  • Útil cuando los archivos se utilizan fuera de Hive

21) Mencione si podemos nombrar la vista igual que el nombre de una tabla de Hive.

No. El nombre de una vista debe ser único en comparación con todas las demás tablas y como vistas presentes en la misma base de datos.


22) Mencione ¿Qué son las vistas en Hive?

En Hive, las vistas son similares a las tablas. Se generan en base a los requerimientos.

  • Podemos guardar cualquier conjunto de datos de resultados como una vista en Hive
  • El uso es similar a las vistas utilizadas en SQL
  • Todo tipo de operaciones DML se pueden realizar en una vista

23) Explique cómo Hive deserializa y serializa los datos.

Por lo general, mientras lee/escribe los datos, el usuario primero se comunica con el formato de entrada. Luego se conecta con el lector de registros para leer/escribir registros. Para serializar los datos, los datos van a la fila. Aquí, el serde personalizado deserializado utiliza el inspector de objetos para deserializar los datos en los campos.


24) ¿Qué son los cubos en Hive?

  • Los datos presentes en las particiones se pueden dividir aún más en cubos
  • La división se realiza en función de Hash de columnas particulares que se seleccionan en la tabla.

25) En Hive, ¿cómo puede habilitar depósitos?

En Hive, puede habilitar depósitos con el siguiente comando:

set.hive.enforce.bucketing=true;

26) En Hive, ¿puede sobrescribir la configuración de Hadoop MapReduce en Hive?

Sí, puede sobrescribir la configuración de Hadoop MapReduce en Hive.


27) Explique cómo puede cambiar el tipo de datos de una columna en Hive.

Puede cambiar el tipo de datos de una columna en Hive usando el comando,

ALTER TABLE table_name CHANGE column_name column_name new_datatype;

28) Mencione cuál es la diferencia entre order by y sort by en Hive.

  • ORDENAR POR ordenará los datos dentro de cada reductor. Puede utilizar cualquier número de reductores para la operación ORDENAR POR.
  • ORDER BY ordenará todos los datos juntos, que tienen que pasar por un reductor. Por lo tanto, ORDER BY en Hive usa un solo

29) ¿Explicar cuándo usar explotar en Hive?

Los desarrolladores de Hadoop a veces toman una matriz como entrada y convertir en una fila de tabla separada. Para convertir tipos de datos complejos en los formatos de tabla deseados, Hive usa explotar.


30) Mencione cómo puede evitar que se consulte un formulario de partición.

Puede detener la consulta de un formulario de partición utilizando la cláusula ENABLE OFFLINE con la instrucción ALTER TABLE.

Estas preguntas de la entrevista también te ayudarán en tu viva(oral). Consulte nuestro Tutoriales de colmena para una ventaja adicional en su entrevista.

Compartir

3 Comentarios

  1. Avatar Satyaranjan Singh dice:

    Es muy útil……..útil……..útil para la preparación de la entrevista, así como para la autopreparación.

  2. ¡Gracias! ¡Es muy útil!

    Creo que tal vez pueda agregar algunas preguntas sobre "sesgo de datos", porque generalmente me pedían que respondiera estas preguntas cuando era entrevistador.

    1. Avatar Meenakshi dice:

      Por favor agregue las preguntas de la entrevista que usted haya hecho.

Deje un comentario

Su dirección de correo electrónico no será publicada. Las areas obligatorias están marcadas como requeridas *