Top 30 Hive-interviewvragen en antwoorden (2024)

Hive-interviewvragen voor eerstejaars en ervaren

Hier zijn Hive-interviewvragen en -antwoorden voor zowel eerstejaars als ervaren kandidaten om hun droombaan te krijgen.

Gratis pdf-download: Hive-interviewvragen


1) Leg uit wat Hive is?

Hive is een ETL- en datawarehousing-tool ontwikkeld bovenop Hadoop Distributed File System (HDFS). Het is een datawarehouse-framework voor het opvragen en analyseren van gegevens die zijn opgeslagen in HDFS. Hive is open-sourcesoftware waarmee programmeurs grote datasets kunnen analyseren Hadoop.


2) Wanneer Hive gebruiken?

  • Hive is handig bij het maken datawarehouse toepassingen
  • Wanneer je te maken hebt met statische data in plaats van dynamische data
  • Wanneer de applicatie een hoge latentie heeft (hoge responstijd)
  • Wanneer een grote dataset wordt onderhouden
  • Wanneer we queries gebruiken in plaats van scripting

3) Noem wat de verschillende modi van Hive zijn?

Afhankelijk van de grootte van de dataknooppunten in Hadoop kan Hive in twee modi werken. Deze modi zijn,

  • Lokale modus
  • Kaartverkleiningsmodus

4) Vermeld wanneer u de kaartverkleiningsmodus moet gebruiken?

De kaartverkleiningsmodus wordt gebruikt wanneer:

  • Het werkt op een groot aantal datasets en de query wordt parallel uitgevoerd
  • Hadoop heeft meerdere dataknooppunten en gegevens worden gedistribueerd over verschillende knooppunten die we in deze modus Hive gebruiken
  • Het verwerken van grote datasets met betere prestaties moet worden bereikt

5) Noem de belangrijkste componenten van Hive Architecture?

Belangrijke componenten van Hive Architecture omvatten:

  • User Interface
  • Compiler
  • Metawinkel
  • bestuurder
  • Voer motor uit
Interviewvragen bij Hive
Interviewvragen bij Hive

6) Vermeld welke verschillende soorten tabellen beschikbaar zijn in Hive?

Er zijn twee soorten tabellen beschikbaar in Hive.

  • Beheerde tabel: In de beheerde tabel staan ​​zowel de gegevens als het schema onder controle van Hive
  • Externe tafel: In de externe tabel wordt alleen het schema beheerd door Hive.

7) Leg uit wat Metastore in Hive is?

Metastore is een centrale opslagplaats in Hive. Het wordt gebruikt voor het opslaan van schema-informatie of metagegevens in de externe database.


8) Vermeld waaruit Hive bestaat?

Hive bestaat uit 3 hoofdonderdelen,

  1. Hive-klanten
  2. Hive-diensten
  3. Hive-opslag en computergebruik

9) Vermeld wat het type database is dat Hive ondersteunt?

Voor de opslag van metagegevens voor één gebruiker gebruikt Hive de derby-database en voor metagegevens voor meerdere gebruikers of gedeelde metagegevens die Hive gebruikt MYSQL.


10) Noem de standaard lees- en schrijfklassen van Hive?

Hive standaard lees- en schrijfklassen zijn

  1. TextInputFormat/HiveIgnoreKeyTextOutputFormat
  2. SequenceFileInputFormat/SequenceFileOutputFormat

11) Wat is indexeren in Hive?

Hive-indexering is een techniek voor het optimaliseren van query's om de snelheid van het opzoeken van query's in bepaalde kolommen van een tabel te verbeteren.


12) Waarom is Hive niet geschikt voor OLTP-systemen?

Hive is niet geschikt voor OLTP-systemen omdat het geen invoeg- en updatefunctie op rijniveau biedt.


13) Vermeld wat het verschil is tussen Hbase en Hive?

Het verschil tussen Hbase en Hive is:

  • Hive maakt het grootste deel van de SQL query's, maar HBase staat geen SQL-query's toe
  • Hive ondersteunt geen invoeg-, update- en verwijderbewerkingen op recordniveau in tabel
  • Hive is een datawarehouse-framework, terwijl HBase een NoSQL-database is
  • Hive draait bovenop MapReduce, HBase draait bovenop HDFS

14) Leg uit wat een Hive-variabele is? Waarvoor gebruiken we het?

De Hive-variabele wordt gemaakt in de Hive-omgeving waarnaar kan worden verwezen door Hive-scripts. Het wordt gebruikt om bepaalde waarden door te geven aan de Hive-query's wanneer de query wordt uitgevoerd.


15) Vermeld wat de ObjectInspector-functionaliteit in Hive is?

ObjectInspector-functionaliteit in Hive wordt gebruikt om de interne structuur van de kolommen, rijen en complexe objecten te analyseren. Het geeft toegang tot de interne velden binnen de objecten.


16) Vermeld wat is (HS2) HiveServer2?

Het is een serverinterface die de volgende functies uitvoert.

  • Hiermee kunnen externe clients query's uitvoeren op Hive
  • Haal de resultaten van genoemde zoekopdrachten op

Enkele geavanceerde functies gebaseerd op Thrift RPC in de nieuwste versie zijn onder meer

  • Gelijktijdigheid met meerdere clients
  • authenticatie

17) Vermeld wat de Hive-queryprocessor doet?

Hive-queryprocessor converteert grafiek van MapReduce-taken met het uitvoeringstijdframework. Zodat de taken kunnen worden uitgevoerd in de volgorde van afhankelijkheden.


18) Vermeld wat de componenten zijn van een Hive-queryprocessor?

De componenten van een Hive-queryprocessor omvatten:

  • Logische plangeneratie
  • Generatie van fysieke plannen
  • Uitvoeringsmotor
  • Operators
  • UDF's en UDAF's
  • Optimizer
  • parser
  • Semantische Analyzer
  • Typ controleren

19) Vermeld wat partities in Hive zijn?

Hive organiseert tabellen in partities.

  • Het is een van de manieren om tabellen in verschillende delen te verdelen op basis van partitiesleutels.
  • Partitie is handig als de tabel een of meer partitiesleutels heeft.
  • Partitiesleutels zijn basiselementen om te bepalen hoe de gegevens in de tabel worden opgeslagen.

20) Vermeld wanneer u 'Interne tabel' en 'Externe tabel' in Hive moet kiezen?

In Hive kunt u een interne tabel kiezen,

  • Als de verwerkingsgegevens beschikbaar zijn in het lokale bestandssysteem
  • Als we willen dat Hive de volledige levenscyclus van gegevens beheert, inclusief de verwijdering

U kunt kiezen voor Externe tafel,

  • Bij het verwerken van gegevens die beschikbaar zijn in HDFS
  • Handig wanneer de bestanden buiten Hive worden gebruikt

21) Vermeld of we de weergave dezelfde naam kunnen geven als de naam van een Hive-tabel?

Nee. De naam van een weergave moet uniek zijn in vergelijking met alle andere tabellen en als weergaven in dezelfde database.


22) Vermeld wat weergaven zijn in Hive?

In Hive zijn weergaven vergelijkbaar met tabellen. Ze worden gegenereerd op basis van de vereisten.

  • We kunnen alle resultaatsetgegevens opslaan als weergave in Hive
  • Het gebruik is vergelijkbaar met de weergaven die in SQL worden gebruikt
  • Alle soorten DML-bewerkingen kunnen op een weergave worden uitgevoerd

23) Leg uit hoe Hive de gegevens deserialiseert en serialiseert?

Normaal gesproken communiceert de gebruiker tijdens het lezen/schrijven van de gegevens eerst met het invoerformaat. Vervolgens maakt het verbinding met de recordlezer om het record te lezen/schrijven. Om de gegevens te serialiseren, gaan de gegevens naar een rij. Hier gebruikt gedeserialiseerde aangepaste serde objectinspecteur om de gegevens in velden te deserialiseren.


24) Wat zijn emmers in Hive?

  • De gegevens die aanwezig zijn in de partities kunnen verder worden onderverdeeld in buckets
  • De verdeling wordt uitgevoerd op basis van de hash van bepaalde kolommen die in de tabel zijn geselecteerd.

25) Hoe kun je in Hive buckets inschakelen?

In Hive kunt u buckets inschakelen met behulp van de volgende opdracht:

set.hive.enforce.bucketing=true;

26) Kunt u in Hive de Hadoop MapReduce-configuratie in Hive overschrijven?

Ja, u kunt de Hadoop MapReduce-configuratie in Hive overschrijven.


27) Leg uit hoe je een kolomgegevenstype in Hive kunt wijzigen?

U kunt een kolomgegevenstype in Hive wijzigen met behulp van de opdracht:

ALTER TABLE table_name CHANGE column_name column_name new_datatype;

28) Vermeld wat het verschil is tussen sorteren op en sorteren op in Hive?

  • SORT BY sorteert de gegevens binnen elke reducer. U kunt een willekeurig aantal verloopstukken gebruiken voor SORT BY-bediening.
  • ORDER BY sorteert alle gegevens samen, die door één reducer moeten gaan. ORDER BY in Hive gebruikt dus een enkele

29) Leg uit wanneer je explode in Hive moet gebruiken?

Hadoop-ontwikkelaars nemen soms een reeks als invoer en omzetten in een aparte tabelrij. Om complexe gegevenstypen naar de gewenste tabelindelingen te converteren, gebruikt Hive explode.


30) Noem hoe u kunt voorkomen dat een partitieformulier wordt opgevraagd?

U kunt voorkomen dat een partitieformulier wordt opgevraagd door de ENABLE OFFLINE-clausule met de ALTER TABLE-instructie te gebruiken.

Deze interviewvragen zullen ook helpen bij uw viva (mondeling). Verwijs onze Hive-tutorials voor een extra voorsprong in uw sollicitatiegesprek.

Delen

3 reacties

  1. avatar Satyaranjan Singh zegt:

    Het is erg nuttig……..nuttig……..nuttig voor zowel de voorbereiding op sollicitatiegesprekken als voor zelfvoorbereiding.

  2. Bedankt! Het is erg nuttig!

    Ik denk dat je misschien wat vragen kunt toevoegen over ‘gegevensscheefheid’, omdat mij als interviewer meestal werd gevraagd deze vraag te beantwoorden.

    1. avatar Meenakshi zegt:

      voeg interviewvragen toe die u heeft gesteld

Laat een reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd *