As 30 principais perguntas e respostas da entrevista do Hive (2024)

Perguntas da entrevista do Hive para novatos e experientes

Aqui estão as perguntas e respostas da entrevista do Hive para calouros e também para candidatos experientes para conseguir o emprego dos sonhos.

Download gratuito de PDF: Perguntas da entrevista do Hive


1) Explique o que é Hive?

Hive é uma ferramenta de ETL e armazenamento de dados desenvolvida com base no Hadoop Distributed File System (HDFS). É uma estrutura de data warehouse para consulta e análise de dados armazenados no HDFS. Hive é um software de código aberto que permite aos programadores analisar grandes conjuntos de dados em Hadoop.


2) Quando usar o Hive?

  • Hive é útil ao fazer data warehouse aplicações
  • Quando você está lidando com dados estáticos em vez de dados dinâmicos
  • Quando o aplicativo está em alta latência (alto tempo de resposta)
  • Quando um grande conjunto de dados é mantido
  • Quando usamos consultas em vez de scripts

3) Mencione quais são os diferentes modos do Hive?

Dependendo do tamanho dos nós de dados no Hadoop, o Hive pode operar em dois modos. Esses modos são,

  • Modo local
  • Modo de redução de mapa

4) Mencionou quando usar o modo de redução de mapa?

O modo de redução de mapa é usado quando,

  • Ele funcionará em uma grande quantidade de conjuntos de dados e consultas serão executadas de forma paralela
  • O Hadoop tem vários nós de dados e os dados são distribuídos em diferentes nós. Usamos o Hive neste modo
  • O processamento de grandes conjuntos de dados com melhor desempenho precisa ser alcançado

5) Mencionou os principais componentes da arquitetura Hive?

Os principais componentes da arquitetura Hive incluem,

  • Interface de Usuário
  • Compilador
  • Metastore
  • Dirigir
  • Executar mecanismo
Perguntas da entrevista do Hive
Perguntas da entrevista do Hive

6) Mencione quais são os diferentes tipos de tabelas disponíveis no Hive?

Existem dois tipos de tabelas disponíveis no Hive.

  • Tabela gerenciada: Na tabela gerenciada, os dados e o esquema estão sob controle do Hive
  • Mesa externa: Na tabela externa, apenas o esquema está sob controle do Hive.

7) Explique o que é Metastore no Hive?

Metastore é um repositório central no Hive. É usado para armazenar informações de esquema ou metadados no banco de dados externo.


8) Mencione do que o Hive é composto?

A colmeia consiste em 3 partes principais,

  1. Clientes Hive
  2. Serviços de colmeia
  3. Armazenamento e computação de colmeia

9) Mencione quais são os tipos de banco de dados que o Hive suporta?

Para armazenamento de metadados de usuário único, o Hive usa o banco de dados derby e para metadados de vários usuários ou caso de metadados compartilhados, o Hive usa MYSQL.


10) Mencionar as classes de leitura e gravação padrão do Hive?

As classes de leitura e gravação padrão do Hive são

  1. TextInputFormat/HiveIgnoreKeyTextOutputFormat
  2. SequenceFileInputFormat/SequenceFileOutputFormat

11) O que é indexação no Hive?

A indexação do Hive é uma técnica de otimização de consulta para melhorar a velocidade de pesquisa de consultas em determinadas colunas de uma tabela.


12) Por que o Hive não é adequado para sistemas OLTP?

O Hive não é adequado para sistemas OLTP porque não fornece funções de inserção e atualização no nível da linha.


13) Mencione qual é a diferença entre Hbase e Hive?

A diferença entre Hbase e Hive é,

  • O Hive permite a maioria dos SQL consultas, mas o HBase não permite consultas SQL
  • O Hive não oferece suporte a operações de inserção, atualização e exclusão em nível de registro na tabela
  • Hive é uma estrutura de data warehouse, enquanto HBase é um banco de dados NoSQL
  • O Hive é executado no topo do MapReduce, o HBase é executado no topo do HDFS

14) Explique o que é uma variável Hive? Para que usamos?

A variável Hive é criada no ambiente Hive que pode ser referenciada por scripts Hive. É usado para passar alguns valores para as consultas do hive quando a consulta começa a ser executada.


15) Mencione qual é a funcionalidade do ObjectInspector no Hive?

A funcionalidade ObjectInspector no Hive é usada para analisar a estrutura interna das colunas, linhas e objetos complexos. Permite acessar os campos internos dentro dos objetos.


16) Mencione o que é (HS2) HiveServer2?

É uma interface de servidor que executa as seguintes funções.

  • Ele permite que clientes remotos executem consultas no Hive
  • Recuperar os resultados das consultas mencionadas

Alguns recursos avançados baseados no Thrift RPC em sua versão mais recente incluem

  • Simultaneidade multicliente
  • Autenticação

17) Mencione o que o processador de consulta Hive faz?

O processador de consulta Hive converte o gráfico de trabalhos MapReduce com a estrutura de tempo de execução. Para que os trabalhos possam ser executados na ordem de dependências.


18) Mencione quais são os componentes de um processador de consulta Hive?

Os componentes de um processador de consulta Hive incluem,

  • Geração de Plano Lógico
  • Geração de Plano Físico
  • Mecanismo de Execução
  • Operadores
  • UDF e UDAF
  • Optimizer
  • Analisador
  • Analisador Semântico
  • Verificação de tipo

19) Mencione o que são partições no Hive?

O Hive organiza tabelas em partições.

  • É uma das formas de dividir tabelas em diferentes partes com base em chaves de partição.
  • A partição é útil quando a tabela possui uma ou mais chaves de partição.
  • As chaves de partição são elementos básicos para determinar como os dados são armazenados na tabela.

20) Mencionou quando escolher “Tabela Interna” e “Tabela Externa” no Hive?

No Hive você pode escolher a tabela interna,

  • Se os dados de processamento disponíveis no sistema de arquivos local
  • Se quisermos que o Hive gerencie o ciclo de vida completo dos dados, incluindo a exclusão

Você pode escolher Tabela externa,

  • Se processar dados disponíveis em HDFS
  • Útil quando os arquivos estão sendo usados ​​fora do Hive

21) Mencione se podemos nomear a visualização igual ao nome de uma tabela Hive?

Não. O nome de uma visão deve ser único em comparação com todas as outras tabelas e como visões presentes no mesmo banco de dados.


22) Mencione o que são visualizações no Hive?

No Hive, as visualizações são semelhantes às tabelas. Eles são gerados com base nos requisitos.

  • Podemos salvar qualquer dado do conjunto de resultados como uma visualização no Hive
  • O uso é semelhante ao das visualizações usadas no SQL
  • Todos os tipos de operações DML podem ser executadas em uma visualização

23) Explique como o Hive desserializa e serializa os dados?

Normalmente, ao ler/gravar os dados, o usuário primeiro se comunica com o formato de entrada. Em seguida, ele se conecta ao leitor de registros para ler/gravar registros. Para serializar os dados, os dados vão para a linha. Aqui, o serde personalizado desserializado usa o inspetor de objetos para desserializar os dados nos campos.


24) O que são baldes no Hive?

  • Os dados presentes nas partições podem ser divididos ainda em Buckets
  • A divisão é realizada com base no Hash de colunas específicas selecionadas na tabela.

25) No Hive, como você pode habilitar buckets?

No Hive, você pode habilitar buckets usando o seguinte comando,

set.hive.enforce.bucketing=true;

26) No Hive, você pode substituir a configuração do Hadoop MapReduce no Hive?

Sim, você pode substituir a configuração do Hadoop MapReduce no Hive.


27) Explique como você pode alterar o tipo de dados de uma coluna no Hive?

Você pode alterar o tipo de dados de uma coluna no Hive usando o comando,

ALTER TABLE table_name CHANGE column_name column_name new_datatype;

28) Mencione qual é a diferença entre ordenar por e classificar por no Hive?

  • SORT BY classificará os dados dentro de cada redutor. Você pode usar qualquer número de redutores para operação SORT BY.
  • ORDER BY classificará todos os dados juntos, que devem passar por um redutor. Assim, ORDER BY no hive usa um único

29) Explique quando usar explodir no Hive?

Os desenvolvedores do Hadoop às vezes tomam uma atitude ordem como entrada e converta em uma linha separada da tabela. Para converter tipos de dados complexos em formatos de tabela desejados, o Hive usa explodir.


30) Mencione como você pode impedir que um formulário de partição seja consultado?

Você pode interromper a consulta de um formulário de partição usando a cláusula ENABLE OFFLINE com a instrução ALTER TABLE.

Essas perguntas da entrevista também ajudarão na sua viva (oral). Consulte nosso Tutoriais de colmeia para uma vantagem extra em sua entrevista.

Partilhar

3 Comentários

  1. Avatar Satyaranjan Singh diz:

    É muito útil……..útil……..útil para a preparação para entrevistas, bem como para a autopreparação.

  2. Obrigado! É muito útil!

    Acho que talvez você possa adicionar algumas perguntas sobre “distorção de dados”, porque geralmente me pediam para responder a essas perguntas quando era entrevistador.

    1. adicione perguntas da entrevista, que você fez

Deixe um comentário

O seu endereço de e-mail não será publicado. Os campos obrigatórios são marcados com *