Top 30 des questions et réponses d'entretien avec Hive (2024)

Questions d'entretien Hive pour les débutants et les expérimentés

Voici les questions et réponses d'entretien Hive pour les candidats débutants et expérimentés pour obtenir l'emploi de leurs rêves.

Téléchargement PDF gratuit : Questions d'entretien avec Hive


1) Expliquez qu'est-ce que Hive ?

Hive est un ETL et un outil d'entreposage de données développé sur le système de fichiers distribués Hadoop (HDFS). Il s'agit d'un cadre d'entrepôt de données pour l'interrogation et l'analyse des données stockées dans HDFS. Hive est un logiciel open source qui permet aux programmeurs d'analyser de grands ensembles de données sur Hadoop.


2) Quand utiliser Hive ?

  • Hive est utile pour créer entrepôt de données applications
  • Lorsque vous traitez des données statiques au lieu de données dynamiques
  • Lorsque l'application est en latence élevée (temps de réponse élevé)
  • Lorsqu’un grand ensemble de données est conservé
  • Lorsque nous utilisons des requêtes au lieu de scripts

3) Mentionnez quels sont les différents modes de Hive ?

Selon la taille des nœuds de données dans Hadoop, Hive peut fonctionner en deux modes. Ces modes sont,

  • Mode local
  • Mode de réduction de la carte

4) Mentionnez quand utiliser le mode de réduction de la carte ?

Le mode de réduction de carte est utilisé lorsque,

  • Il fonctionnera sur une grande quantité d’ensembles de données et les requêtes seront exécutées de manière parallèle
  • Hadoop a plusieurs nœuds de données, et les données sont réparties sur différents nœuds, nous utilisons Hive dans ce mode
  • Le traitement de grands ensembles de données avec de meilleures performances doit être atteint

5) Mentionner les composants clés de l'architecture Hive ?

Les composants clés de l'architecture Hive comprennent :

  • Interface utilisateur
  • Compilateur
  • Métastore
  • Tournevis
  • Exécuter le moteur
Questions d'entretien chez Hive
Questions d'entretien chez Hive

6) Mentionnez quels sont les différents types de tables disponibles dans Hive ?

Il existe deux types de tables disponibles dans Hive.

  • Table gérée : Dans la table gérée, les données et le schéma sont sous le contrôle de Hive
  • Table externe: Dans la table externe, seul le schéma est sous le contrôle de Hive.

7) Expliquez ce qu'est Metastore dans Hive ?

Metastore est un référentiel central dans Hive. Il est utilisé pour stocker des informations de schéma ou des métadonnées dans la base de données externe.


8) Mentionnez de quoi est composé Hive ?

La ruche se compose de 3 parties principales,

  1. Clients de la ruche
  2. Services de la ruche
  3. Stockage et informatique Hive

9) Mentionnez quel est le type de base de données pris en charge par Hive ?

Pour le stockage des métadonnées d'un seul utilisateur, Hive utilise une base de données Derby et pour les métadonnées de plusieurs utilisateurs ou le cas de métadonnées partagées, Hive utilise MYSQL.


10) Mentionner les classes de lecture et d'écriture par défaut de Hive ?

Les classes de lecture et d'écriture par défaut de Hive sont

  1. TextInputFormat/HiveIgnoreKeyTextOutputFormat
  2. SequenceFileInputFormat/SequenceFileOutputFormat

11) Qu’est-ce que l’indexation dans Hive ?

L'indexation Hive est une technique d'optimisation des requêtes permettant d'améliorer la vitesse de recherche des requêtes sur certaines colonnes d'une table.


12) Pourquoi Hive n'est-il pas adapté aux systèmes OLTP ?

Hive n'est pas adapté aux systèmes OLTP car il ne fournit pas de fonction d'insertion et de mise à jour au niveau de la ligne.


13) Mentionnez quelle est la différence entre Hbase et Hive ?

La différence entre Hbase et Hive est :

  • Hive permet la plupart des SQL requêtes, mais HBase n'autorise pas les requêtes SQL
  • Hive ne prend pas en charge les opérations d'insertion, de mise à jour et de suppression au niveau de l'enregistrement sur la table
  • Hive est un framework d'entrepôt de données alors que HBase est une base de données NoSQL
  • Hive s'exécute au-dessus de MapReduce, HBase s'exécute au-dessus de HDFS

14) Expliquez ce qu'est une variable Hive ? A quoi sert-on ?

La variable Hive est créée dans l'environnement Hive et peut être référencée par les scripts Hive. Il est utilisé pour transmettre certaines valeurs aux requêtes Hive lorsque la requête commence à s'exécuter.


15) Mentionnez quelle est la fonctionnalité ObjectInspector dans Hive ?

La fonctionnalité ObjectInspector de Hive est utilisée pour analyser la structure interne des colonnes, des lignes et des objets complexes. Il permet d'accéder aux champs internes à l'intérieur des objets.


16) Mentionnez qu'est-ce que (HS2) HiveServer2 ?

Il s'agit d'une interface serveur qui remplit les fonctions suivantes.

  • Il permet aux clients distants d'exécuter des requêtes sur Hive
  • Récupérer les résultats des requêtes mentionnées

Certaines fonctionnalités avancées basées sur Thrift RPC dans sa dernière version incluent

  • Concurrence multi-client
  • Authentification

17) Mentionnez ce que fait le processeur de requêtes Hive ?

Le processeur de requêtes Hive convertit le graphique des tâches MapReduce avec le cadre de temps d'exécution. Pour que les tâches puissent être exécutées dans l’ordre des dépendances.


18) Mentionnez quels sont les composants d'un processeur de requêtes Hive ?

Les composants d'un processeur de requêtes Hive incluent :

  • Génération de plan logique
  • Génération de plans physiques
  • Moteur d'exécution
  • Les opérateurs
  • UDF et UDAF
  • Optimizer
  • Analyseur
  • Analyseur sémantique
  • Vérification de type

19) Mentionnez ce que sont les partitions dans Hive ?

Hive organise les tables en partitions.

  • C'est l'un des moyens de diviser les tables en différentes parties en fonction des clés de partition.
  • La partition est utile lorsque la table possède une ou plusieurs clés de partition.
  • Les clés de partition sont des éléments de base permettant de déterminer la manière dont les données sont stockées dans la table.

20) Mentionnez quand choisir « Table interne » et « Table externe » dans Hive ?

Dans Hive, vous pouvez choisir la table interne,

  • Si les données de traitement disponibles dans le système de fichiers local
  • Si nous voulons que Hive gère le cycle de vie complet des données, y compris la suppression

Vous pouvez choisir Table externe,

  • Si les données de traitement sont disponibles dans HDFS
  • Utile lorsque les fichiers sont utilisés en dehors de Hive

21) Mentionnez si nous pouvons nommer la vue de la même manière que le nom d'une table Hive ?

Non. Le nom d'une vue doit être unique par rapport à toutes les autres tables et comme vues présentes dans la même base de données.


22) Mentionnez ce que sont les vues dans Hive ?

Dans Hive, les vues sont similaires aux tables. Ils sont générés en fonction des besoins.

  • Nous pouvons enregistrer n'importe quelle donnée d'ensemble de résultats sous forme de vue dans Hive
  • L'utilisation est similaire aux vues utilisées dans SQL
  • Tous les types d'opérations DML peuvent être effectués sur une vue

23) Expliquez comment Hive désérialise et sérialise les données ?

Habituellement, lors de la lecture/écriture des données, l'utilisateur communique d'abord avec le format d'entrée. Ensuite, il se connecte au lecteur d'enregistrement pour lire/écrire l'enregistrement. Pour sérialiser les données, les données vont à la ligne. Ici, le serde personnalisé désérialisé utilise l'inspecteur d'objets pour désérialiser les données dans les champs.


24) Qu'est-ce que les buckets dans Hive ?

  • Les données présentes dans les partitions peuvent être divisées en buckets
  • La division est effectuée sur la base du hachage de colonnes particulières sélectionnées dans le tableau.

25) Dans Hive, comment activer les buckets ?

Dans Hive, vous pouvez activer les buckets à l'aide de la commande suivante :

set.hive.enforce.bucketing=true;

26) Dans Hive, pouvez-vous écraser la configuration Hadoop MapReduce dans Hive ?

Oui, vous pouvez écraser la configuration Hadoop MapReduce dans Hive.


27) Expliquez comment modifier le type de données d'une colonne dans Hive ?

Vous pouvez modifier un type de données de colonne dans Hive à l'aide de la commande,

ALTER TABLE table_name CHANGE column_name column_name new_datatype;

28) Mentionnez quelle est la différence entre trier par et trier par dans Hive ?

  • SORT BY triera les données dans chaque réducteur. Vous pouvez utiliser n'importe quel nombre de réducteurs pour l'opération SORT BY.
  • ORDER BY triera toutes les données ensemble, qui doivent passer par un seul réducteur. Ainsi, ORDER BY dans la ruche utilise un seul

29) Expliquez quand utiliser l'explosion dans Hive ?

Les développeurs Hadoop prennent parfois un tableau en entrée et converti en une ligne de tableau distincte. Pour convertir des types de données complexes dans les formats de tableau souhaités, Hive utilise exploser.


30) Mentionnez comment pouvez-vous empêcher l'interrogation d'un formulaire de partition ?

Vous pouvez arrêter l'interrogation d'un formulaire de partition en utilisant la clause ENABLE OFFLINE avec l'instruction ALTER TABLE.

Ces questions d'entretien vous aideront également dans votre soutenance (orale). Référez-vous à notre Tutoriels sur la ruche pour un avantage supplémentaire dans votre entretien.

Partager

3 Commentaires

  1. Avatar Satyaranjan Singh dit:

    C'est très utile……..utile……..utile pour la préparation aux entretiens ainsi que pour l'auto-préparation.

  2. Merci! C'est très utile !

    Je pense que vous pouvez peut-être ajouter quelques questions sur le « biais des données », car on me demandait généralement de répondre à ces questions lorsque j'étais intervieweur.

    1. veuillez ajouter les questions d'entretien que vous avez posées

Soyez sympa! Laissez un commentaire

Votre adresse email n'apparaitra pas. Les champs obligatoires sont marqués *