Die 30 wichtigsten Fragen und Antworten zu Hive-Interviews (2024)

Hive-Interviewfragen für Erstsemester und Berufserfahrene

Hier finden Sie Fragen und Antworten zu Hive-Interviews für Erstsemester und erfahrene Kandidaten, die ihren Traumjob bekommen möchten.

Kostenloser PDF-Download: Fragen zum Hive-Interview


1) Erklären Sie, was Hive ist?

Hive ist ein ETL- und Data-Warehousing-Tool, das auf Basis des Hadoop Distributed File System (HDFS) entwickelt wurde. Es handelt sich um ein Data-Warehouse-Framework zum Abfragen und Analysieren von Daten, die in HDFS gespeichert sind. Hive ist eine Open-Source-Software, mit der Programmierer große Datenmengen analysieren können Hadoop.


2) Wann sollte Hive verwendet werden?

  • Hive ist bei der Herstellung nützlich Data Warehouse Anwendungen
  • Wenn Sie mit statischen Daten statt mit dynamischen Daten arbeiten
  • Wenn die Anwendung eine hohe Latenz aufweist (hohe Antwortzeit)
  • Wenn ein großer Datensatz verwaltet wird
  • Wenn wir Abfragen anstelle von Skripten verwenden

3) Erwähnen Sie, welche verschiedenen Hive-Modi es gibt?

Abhängig von der Größe der Datenknoten in Hadoop kann Hive in zwei Modi betrieben werden. Diese Modi sind:

  • Lokalbetrieb
  • Kartenreduzierungsmodus

4) Erwähnen Sie, wann der Kartenreduzierungsmodus verwendet werden soll?

Der Kartenreduzierungsmodus wird verwendet, wenn:

  • Es wird für große Mengen an Datensätzen und Abfragen verwendet, die parallel ausgeführt werden
  • Hadoop verfügt über mehrere Datenknoten und die Daten werden auf verschiedene Knoten verteilt. In diesem Modus verwenden wir Hive
  • Es muss eine bessere Verarbeitung großer Datenmengen erreicht werden

5) Schlüsselkomponenten der Hive-Architektur erwähnen?

Zu den Schlüsselkomponenten der Hive-Architektur gehören:

  • Benutzerschnittstelle
  • Compiler
  • Metastore
  • LED Treiber
  • Engine ausführen
Fragen zum Hive-Interview
Fragen zum Hive-Interview

6) Erwähnen Sie, welche verschiedenen Tabellentypen in Hive verfügbar sind?

In Hive sind zwei Arten von Tabellen verfügbar.

  • Verwalteter Tisch: In verwalteten Tabellen unterliegen sowohl die Daten als auch das Schema der Kontrolle von Hive
  • Externer Tisch: In der externen Tabelle steht nur das Schema unter der Kontrolle von Hive.

7) Erklären Sie, was Metastore in Hive ist.

Metastore ist ein zentrales Repository in Hive. Es wird zum Speichern von Schemainformationen oder Metadaten in der externen Datenbank verwendet.


8) Erwähnen Sie, woraus Hive besteht?

Der Bienenstock besteht aus 3 Hauptteilen:

  1. Hive-Clients
  2. Hive-Dienste
  3. Hive-Speicher und Computing

9) Erwähnen Sie, welche Art von Datenbank Hive unterstützt?

Für die Speicherung von Metadaten einzelner Benutzer verwendet Hive die Derby-Datenbank und für Metadaten mehrerer Benutzer oder gemeinsam genutzter Metadaten Case Hive MYSQL.


10) Erwähnen Sie die standardmäßigen Lese- und Schreibklassen von Hive?

Die Standard-Lese- und Schreibklassen von Hive sind

  1. TextInputFormat/HiveIgnoreKeyTextOutputFormat
  2. SequenceFileInputFormat/SequenceFileOutputFormat

11) Was ist Indizierung in Hive?

Die Hive-Indizierung ist eine Technik zur Abfrageoptimierung, um die Geschwindigkeit der Abfragesuche in bestimmten Spalten einer Tabelle zu verbessern.


12) Warum ist Hive nicht für OLTP-Systeme geeignet?

Hive ist nicht für OLTP-Systeme geeignet, da es keine Einfüge- und Aktualisierungsfunktion auf Zeilenebene bietet.


13) Erwähnen Sie, was der Unterschied zwischen Hbase und Hive ist?

Der Unterschied zwischen Hbase und Hive ist:

  • Hive ermöglicht die meisten davon SQL Abfragen, aber HBase erlaubt keine SQL-Abfragen
  • Hive unterstützt keine Einfüge-, Aktualisierungs- und Löschvorgänge auf Datensatzebene für Tabellen
  • Hive ist ein Data-Warehouse-Framework, während HBase eine NoSQL-Datenbank ist
  • Hive läuft auf MapReduce, HBase läuft auf HDFS

14) Erklären Sie, was eine Hive-Variable ist. Wofür nutzen wir es?

Die Hive-Variable wird in der Hive-Umgebung erstellt und kann von Hive-Skripten referenziert werden. Es wird verwendet, um einige Werte an die Hive-Abfragen zu übergeben, wenn die Ausführung der Abfrage beginnt.


15) Erwähnen Sie, was die ObjectInspector-Funktionalität in Hive ist.

Die ObjectInspector-Funktionalität in Hive wird verwendet, um die interne Struktur der Spalten, Zeilen und komplexen Objekte zu analysieren. Es ermöglicht den Zugriff auf die internen Felder innerhalb der Objekte.


16) Erwähnen Sie, was (HS2) HiveServer2 ist?

Es handelt sich um eine Serverschnittstelle, die folgende Funktionen ausführt.

  • Es ermöglicht Remote-Clients, Abfragen an Hive auszuführen
  • Rufen Sie die Ergebnisse der genannten Abfragen ab

Zu den erweiterten Funktionen, die auf Thrift RPC in seiner neuesten Version basieren, gehören:

  • Parallelität mehrerer Clients
  • Authentifizierung

17) Erwähnen Sie, was der Hive-Abfrageprozessor macht?

Der Hive-Abfrageprozessor konvertiert Diagramme von MapReduce-Jobs mit dem Ausführungszeit-Framework. Damit die Jobs in der Reihenfolge der Abhängigkeiten ausgeführt werden können.


18) Erwähnen Sie, aus welchen Komponenten ein Hive-Abfrageprozessor besteht?

Zu den Komponenten eines Hive-Abfrageprozessors gehören:

  • Logische Planerstellung
  • Physische Planerstellung
  • Ausführungs-Engine
  • Betreiber
  • UDFs und UDAFs
  • Optimierer
  • Parser
  • Semantischer Analysator
  • Typprüfung

19) Erwähnen Sie, was Partitionen in Hive sind?

Hive organisiert Tabellen in Partitionen.

  • Dies ist eine Möglichkeit, Tabellen basierend auf Partitionsschlüsseln in verschiedene Teile zu unterteilen.
  • Die Partitionierung ist hilfreich, wenn die Tabelle über einen oder mehrere Partitionsschlüssel verfügt.
  • Partitionsschlüssel sind grundlegende Elemente zur Bestimmung, wie die Daten in der Tabelle gespeichert werden.

20) Erwähnen Sie, wann Sie in Hive „Interne Tabelle“ und „Externe Tabelle“ wählen sollten?

In Hive können Sie eine interne Tabelle auswählen,

  • Wenn die Verarbeitungsdaten im lokalen Dateisystem verfügbar sind
  • Wenn wir möchten, dass Hive den gesamten Lebenszyklus der Daten einschließlich der Löschung verwaltet

Sie können Externe Tabelle wählen,

  • Wenn Verarbeitungsdaten in HDFS verfügbar sind
  • Nützlich, wenn die Dateien außerhalb von Hive verwendet werden

21) Erwähnen Sie, ob wir die Ansicht genauso benennen können wie den Namen einer Hive-Tabelle?

Nein. Der Name einer Ansicht muss im Vergleich zu allen anderen Tabellen und den in derselben Datenbank vorhandenen Ansichten eindeutig sein.


22) Erwähnen Sie, was Ansichten in Hive sind?

In Hive ähneln Ansichten Tabellen. Sie werden auf Basis der Anforderungen generiert.

  • Wir können alle Ergebnissatzdaten als Ansicht in Hive speichern
  • Die Verwendung ähnelt der in SQL verwendeten Ansichten
  • Alle Arten von DML-Operationen können für eine Ansicht ausgeführt werden

23) Erklären Sie, wie Hive die Daten deserialisiert und serialisiert.

Normalerweise kommuniziert der Benutzer beim Lesen/Schreiben der Daten zunächst mit dem Eingabeformat. Anschließend wird eine Verbindung zum Datensatzleser hergestellt, um Datensätze zu lesen/schreiben. Um die Daten zu serialisieren, werden die Daten in eine Zeile verschoben. Hier deserialisierte benutzerdefinierte Serde verwenden den Objektinspektor, um die Daten in Feldern zu deserialisieren.


24) Was sind Buckets in Hive?

  • Die in den Partitionen vorhandenen Daten können weiter in Buckets unterteilt werden
  • Die Division erfolgt basierend auf dem Hash bestimmter in der Tabelle ausgewählter Spalten.

25) Wie können Sie in Hive Buckets aktivieren?

In Hive können Sie Buckets mit dem folgenden Befehl aktivieren:

set.hive.enforce.bucketing=true;

26) Können Sie in Hive die Hadoop MapReduce-Konfiguration in Hive überschreiben?

Ja, Sie können die Hadoop MapReduce-Konfiguration in Hive überschreiben.


27) Erklären Sie, wie Sie den Datentyp einer Spalte in Hive ändern können.

Sie können einen Spaltendatentyp in Hive ändern, indem Sie den Befehl verwenden:

ALTER TABLE table_name CHANGE column_name column_name new_datatype;

28) Erwähnen Sie, was der Unterschied zwischen „Ordnen nach“ und „Sortieren nach“ in Hive ist.

  • SORT BY sortiert die Daten innerhalb jedes Reduzierers. Sie können eine beliebige Anzahl von Reduzierern für den SORT BY-Vorgang verwenden.
  • ORDER BY sortiert alle Daten zusammen, die einen Reduzierer durchlaufen müssen. Daher verwendet ORDER BY in Hive ein Single

29) Erklären Sie, wann Explodieren in Hive verwendet werden soll.

Hadoop-Entwickler nehmen manchmal eine Array als Eingabe übernehmen und in eine separate Tabellenzeile umwandeln. Um komplexe Datentypen in gewünschte Tabellenformate zu konvertieren, verwendet Hive die Explosionsfunktion.


30) Erwähnen Sie, wie Sie verhindern können, dass ein Partitionsformular abgefragt wird.

Sie können die Abfrage eines Partitionsformulars stoppen, indem Sie die ENABLE OFFLINE-Klausel mit der ALTER TABLE-Anweisung verwenden.

Diese Interviewfragen werden Ihnen auch bei Ihrem Lebenslauf (mündlich) helfen. Verweisen Sie auf unsere Hive-Tutorials für einen zusätzlichen Vorteil in Ihrem Vorstellungsgespräch.

Teilen

3 Kommentare

  1. Avatar Satyaranjan Singh sagt:

    Es ist sehr hilfreich……..hilfreich……..hilfreich für die Vorbereitung auf Vorstellungsgespräche sowie für die Selbstvorbereitung.

  2. Danke schön! Es ist sehr hilfreich!

    Ich denke, Sie können vielleicht einige Fragen zum Thema „Datenverzerrung“ hinzufügen, da ich als Interviewer normalerweise gebeten wurde, diese Fragen zu beantworten.

    1. Avatar Meenakshi sagt:

      Bitte fügen Sie Interviewfragen hinzu, die Sie gestellt haben

Hinterlassen Sie uns einen Kommentar

E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind MIT * gekennzeichnet. *