Top 30 Hive-interviewspørgsmål og -svar (2025)

Hive-interviewspørgsmål for nybegyndere og erfarne

Her er Hive-interviewspørgsmål og svar til friskere såvel som erfarne kandidater til at få deres drømmejob.

Gratis PDF-download: Hive-interviewspørgsmål

1) Forklar, hvad er Hive?

Hive er et ETL- og datavarehusværktøj udviklet oven på Hadoop Distributed File System (HDFS). Det er en datavarehusramme til forespørgsel og analyse af data, der er gemt i HDFS. Hive er en open source-software, der lader programmører analysere store datasæt på Hadoop.

2) Hvornår skal man bruge Hive?

Hive er nyttigt, når man laver datalager applikationer
Når du har at gøre med statiske data i stedet for dynamiske data
Når applikationen er på høj latenstid (høj responstid)
Når et stort datasæt vedligeholdes
Når vi bruger forespørgsler i stedet for scripting

3) Nævn hvad er de forskellige tilstande for Hive?

Afhængigt af størrelsen af dataknudepunkter i Hadoop kan Hive fungere i to tilstande. Disse tilstande er,

Lokal tilstand
Kortreducer tilstand

4) Nævn, hvornår man skal bruge kortreduceringstilstand?

Kortreduktionstilstand bruges, når

Det vil udføre på store mængder af datasæt og forespørgsler vil udføres på en parallel måde
Hadoop har flere data noder, og data er fordelt på tværs af forskellige noder, vi bruger Hive i denne tilstand
Behandling af store datasæt med bedre ydeevne skal opnås

5) Nævn nøglekomponenter i Hive Architecture?

Nøglekomponenter i Hive Architecture inkluderer,

Brugergrænseflade
compiler
Metastore
Chauffør
Udfør motor

6) Nævn, hvilke forskellige typer borde findes i Hive?

Der findes to typer borde i Hive.

Administreret bord: I administreret tabel er både data og skema under kontrol af Hive
Eksternt bord: I den eksterne tabel er det kun skemaet, der er under kontrol af Hive.

7) Forklar, hvad er Metastore i Hive?

Metastore er et centralt lager i Hive. Det bruges til at gemme skemaoplysninger eller metadata i den eksterne database.

8) Nævn, hvad Hive består af?

Hive består af 3 hoveddele,

Hive-kunder
Hive Services
Hive Storage og Computing

9) Nævn, hvilken type database understøtter Hive?

Til lagring af metadata for enkeltbrugere bruger Hive derby-database og til metadata for flere brugere eller delte metadata-sager, som Hive bruger MySQL.

10) Nævn Hive standard læse- og skriveklasser?

Hive standard læse- og skriveklasser er

TextInputFormat/HiveIgnoreKeyTextOutputFormat
SequenceFileInputFormat/SequenceFileOutputFormat

11) Hvad er indeksering i Hive?

Hive-indeksering er en forespørgselsoptimeringsteknik til at forbedre hastigheden af forespørgselsopslag på bestemte kolonner i en tabel.

12) Hvorfor er Hive ikke egnet til OLTP-systemer?

Hive er ikke egnet til OLTP-systemer, fordi det ikke giver indsættelses- og opdateringsfunktion på rækkeniveau.

13) Nævn hvad er forskellen mellem Hbase og Hive?

Forskellen mellem Hbase og Hive er,

Hive muliggør det meste af SQL forespørgsler, men HBase tillader ikke SQL-forespørgsler
Hive understøtter ikke indsættelses-, opdaterings- og sletningshandlinger på rekordniveau på tabellen
Hive er en datavarehusramme, hvorimod HBase er NoSQL-database
Hive kører på toppen af MapReduce, HBase kører på toppen af HDFS

14) Forklar hvad en Hive-variabel er? Hvad bruger vi det til?

Hive-variabel oprettes i Hive-miljøet, der kan refereres til af Hive-scripts. Det bruges til at sende nogle værdier til hive-forespørgslerne, når forespørgslen begynder at udføre.

15) Nævn, hvad er ObjectInspector-funktionalitet i Hive?

ObjectInspector-funktionalitet i Hive bruges til at analysere den interne struktur af kolonner, rækker og komplekse objekter. Det giver adgang til de interne felter inde i objekterne.

16) Nævn, hvad er (HS2) HiveServer2?

Det er en servergrænseflade, der udfører følgende funktioner.

Det giver fjernklienter mulighed for at udføre forespørgsler mod Hive
Hent resultaterne af nævnte forespørgsler

Nogle avancerede funktioner baseret på Thrift RPC i dens seneste version inkluderer

Multi-klient samtidighed
Godkendelse

17) Nævn, hvad Hive-forespørgselsprocessor gør?

Hive-forespørgselsprocessor konverterer graf over MapReduce-job med rammen for udførelsestid. Så jobs kan udføres i rækkefølgen af afhængigheder.

18) Nævn, hvad er komponenterne i en Hive-forespørgselsprocessor?

Komponenterne i en Hive-forespørgselsprocessor inkluderer,

Generering af logisk plan
Generering af fysisk plan
Udførelsesmotor
Operatører
UDF'er og UDAF'er
Optimizer
parser
Semantisk analysator
Typekontrol

19) Nævn, hvad er partitioner i Hive?

Hive organiserer tabeller i partitioner.

Det er en af måderne at opdele tabeller i forskellige dele baseret på partitionsnøgler.
Partition er nyttigt, når tabellen har en eller flere partitionsnøgler.
Partitionsnøgler er grundlæggende elementer til at bestemme, hvordan dataene lagres i tabellen.

20) Nævn, hvornår du skal vælge "Internt bord" og "Eksternt bord" i Hive?

I Hive kan du vælge internt bord,

Hvis behandlingsdataene er tilgængelige i det lokale filsystem
Hvis vi ønsker, at Hive skal administrere hele livscyklussen af data, inklusive sletningen

Du kan vælge Eksternt bord,

Hvis der behandles data tilgængelige i HDFS
Nyttigt, når filerne bruges uden for Hive

21) Nævn, om vi kan navngive det samme som navnet på et Hive-bord?

Nej. Navnet på en visning skal være unik sammenlignet med alle andre tabeller og som visninger, der findes i den samme database.

22) Nævn, hvad er synspunkter i Hive?

I Hive ligner visninger tabeller. De er genereret ud fra kravene.

Vi kan gemme alle resultatsætdata som en visning i Hive
Anvendelse svarer til visninger, der bruges i SQL
Alle typer DML-operationer kan udføres på en visning

23) Forklar, hvordan Hive deserialiserer og serialiserer dataene?

Normalt, mens du læser/skriver dataene, kommunikerer brugeren først med inputformat. Derefter forbindes den med Record reader for at læse/skrive post. For at serialisere dataene går dataene til række. Her deserialiseret brugerdefineret serde bruge objektinspektør til at deserialisere data i felter.

24) Hvad er Buckets in Hive?

Dataene i partitionerne kan opdeles yderligere i Buckets
Opdelingen udføres baseret på Hash for bestemte kolonner, der er valgt i tabellen.

25) Hvordan kan du aktivere buckets i Hive?

I Hive kan du aktivere buckets ved at bruge følgende kommando,

set.hive.enforce.bucketing=true;

26) Kan du i Hive overskrive Hadoop MapReduce-konfigurationen i Hive?

Ja, du kan overskrive Hadoop MapReduce-konfigurationen i Hive.

27) Forklar hvordan du kan ændre en kolonnedatatype i Hive?

Du kan ændre en kolonnedatatype i Hive ved at bruge kommando,

ALTER TABLE table_name CHANGE column_name column_name new_datatype;

28) Nævn, hvad er forskellen mellem sortering efter og sortering efter i Hive?

SORT BY vil sortere dataene inden for hver reducering. Du kan bruge et hvilket som helst antal reduktionsgearer til SORT BY operation.
ORDER BY vil sortere alle data sammen, som skal passere gennem en reducer. Således bruger ORDER BY i hive en enkelt

29) Forklar, hvornår man skal bruge eksplodere i Hive?

Hadoop-udviklere tager nogle gange en matrix som input og konverter til en separat tabelrække. For at konvertere komplekse datatyper til ønskede tabelformater, Hive brug eksploderer.

30) Nævn, hvordan kan du forhindre, at en partitionsform forespørges?

Du kan forhindre, at en partitionsform forespørges ved at bruge ENABLE OFFLINE-sætningen med ALTER TABLE-sætningen.

Disse interviewspørgsmål vil også hjælpe i din viva(orals). Henvis vores Hive tutorials for en ekstra kant i dit interview.

Du kan lide:

3 Kommentarer

Det er meget nyttigt……..nyttigt……..nyttigt til samtaleforberedelse såvel som selvforberedelse.

Svar

Tak! Det er meget nyttigt!

Jeg tror måske du kan tilføje nogle spørgsmål om "dataskævhed", fordi jeg normalt blev bedt om at besvare disse spørgsmål, da jeg var interviewer.