Top 30 Hive-interviewspørgsmål og -svar (2025)
Hive-interviewspørgsmål for nybegyndere og erfarne
Her er Hive-interviewspørgsmål og svar til friskere såvel som erfarne kandidater til at få deres drømmejob.
Gratis PDF-download: Hive-interviewspørgsmål
1) Forklar, hvad er Hive?
Hive er et ETL- og datavarehusværktøj udviklet oven på Hadoop Distributed File System (HDFS). Det er en datavarehusramme til forespørgsel og analyse af data, der er gemt i HDFS. Hive er en open source-software, der lader programmører analysere store datasæt på Hadoop.
2) Hvornår skal man bruge Hive?
- Hive er nyttigt, når man laver datalager applikationer
- Når du har at gøre med statiske data i stedet for dynamiske data
- Når applikationen er på høj latenstid (høj responstid)
- Når et stort datasæt vedligeholdes
- Når vi bruger forespørgsler i stedet for scripting
3) Nævn hvad er de forskellige tilstande for Hive?
Afhængigt af størrelsen af dataknudepunkter i Hadoop kan Hive fungere i to tilstande. Disse tilstande er,
- Lokal tilstand
- Kortreducer tilstand
4) Nævn, hvornår man skal bruge kortreduceringstilstand?
Kortreduktionstilstand bruges, når
- Det vil udføre på store mængder af datasæt og forespørgsler vil udføres på en parallel måde
- Hadoop har flere data noder, og data er fordelt på tværs af forskellige noder, vi bruger Hive i denne tilstand
- Behandling af store datasæt med bedre ydeevne skal opnås
5) Nævn nøglekomponenter i Hive Architecture?
Nøglekomponenter i Hive Architecture inkluderer,
- Brugergrænseflade
- compiler
- Metastore
- Chauffør
- Udfør motor
6) Nævn, hvilke forskellige typer borde findes i Hive?
Der findes to typer borde i Hive.
- Administreret bord: I administreret tabel er både data og skema under kontrol af Hive
- Eksternt bord: I den eksterne tabel er det kun skemaet, der er under kontrol af Hive.
7) Forklar, hvad er Metastore i Hive?
Metastore er et centralt lager i Hive. Det bruges til at gemme skemaoplysninger eller metadata i den eksterne database.
8) Nævn, hvad Hive består af?
Hive består af 3 hoveddele,
- Hive-kunder
- Hive Services
- Hive Storage og Computing
9) Nævn, hvilken type database understøtter Hive?
Til lagring af metadata for enkeltbrugere bruger Hive derby-database og til metadata for flere brugere eller delte metadata-sager, som Hive bruger MySQL.
10) Nævn Hive standard læse- og skriveklasser?
Hive standard læse- og skriveklasser er
- TextInputFormat/HiveIgnoreKeyTextOutputFormat
- SequenceFileInputFormat/SequenceFileOutputFormat
11) Hvad er indeksering i Hive?
Hive-indeksering er en forespørgselsoptimeringsteknik til at forbedre hastigheden af forespørgselsopslag på bestemte kolonner i en tabel.
12) Hvorfor er Hive ikke egnet til OLTP-systemer?
Hive er ikke egnet til OLTP-systemer, fordi det ikke giver indsættelses- og opdateringsfunktion på rækkeniveau.
13) Nævn hvad er forskellen mellem Hbase og Hive?
Forskellen mellem Hbase og Hive er,
- Hive muliggør det meste af SQL forespørgsler, men HBase tillader ikke SQL-forespørgsler
- Hive understøtter ikke indsættelses-, opdaterings- og sletningshandlinger på rekordniveau på tabellen
- Hive er en datavarehusramme, hvorimod HBase er NoSQL-database
- Hive kører på toppen af MapReduce, HBase kører på toppen af HDFS
14) Forklar hvad en Hive-variabel er? Hvad bruger vi det til?
Hive-variabel oprettes i Hive-miljøet, der kan refereres til af Hive-scripts. Det bruges til at sende nogle værdier til hive-forespørgslerne, når forespørgslen begynder at udføre.
15) Nævn, hvad er ObjectInspector-funktionalitet i Hive?
ObjectInspector-funktionalitet i Hive bruges til at analysere den interne struktur af kolonner, rækker og komplekse objekter. Det giver adgang til de interne felter inde i objekterne.
16) Nævn, hvad er (HS2) HiveServer2?
Det er en servergrænseflade, der udfører følgende funktioner.
- Det giver fjernklienter mulighed for at udføre forespørgsler mod Hive
- Hent resultaterne af nævnte forespørgsler
Nogle avancerede funktioner baseret på Thrift RPC i dens seneste version inkluderer
- Multi-klient samtidighed
- Godkendelse
17) Nævn, hvad Hive-forespørgselsprocessor gør?
Hive-forespørgselsprocessor konverterer graf over MapReduce-job med rammen for udførelsestid. Så jobs kan udføres i rækkefølgen af afhængigheder.
18) Nævn, hvad er komponenterne i en Hive-forespørgselsprocessor?
Komponenterne i en Hive-forespørgselsprocessor inkluderer,
- Generering af logisk plan
- Generering af fysisk plan
- Udførelsesmotor
- Operatører
- UDF'er og UDAF'er
- Optimizer
- parser
- Semantisk analysator
- Typekontrol
19) Nævn, hvad er partitioner i Hive?
Hive organiserer tabeller i partitioner.
- Det er en af måderne at opdele tabeller i forskellige dele baseret på partitionsnøgler.
- Partition er nyttigt, når tabellen har en eller flere partitionsnøgler.
- Partitionsnøgler er grundlæggende elementer til at bestemme, hvordan dataene lagres i tabellen.
20) Nævn, hvornår du skal vælge "Internt bord" og "Eksternt bord" i Hive?
I Hive kan du vælge internt bord,
- Hvis behandlingsdataene er tilgængelige i det lokale filsystem
- Hvis vi ønsker, at Hive skal administrere hele livscyklussen af data, inklusive sletningen
Du kan vælge Eksternt bord,
- Hvis der behandles data tilgængelige i HDFS
- Nyttigt, når filerne bruges uden for Hive
21) Nævn, om vi kan navngive det samme som navnet på et Hive-bord?
Nej. Navnet på en visning skal være unik sammenlignet med alle andre tabeller og som visninger, der findes i den samme database.
22) Nævn, hvad er synspunkter i Hive?
I Hive ligner visninger tabeller. De er genereret ud fra kravene.
- Vi kan gemme alle resultatsætdata som en visning i Hive
- Anvendelse svarer til visninger, der bruges i SQL
- Alle typer DML-operationer kan udføres på en visning
23) Forklar, hvordan Hive deserialiserer og serialiserer dataene?
Normalt, mens du læser/skriver dataene, kommunikerer brugeren først med inputformat. Derefter forbindes den med Record reader for at læse/skrive post. For at serialisere dataene går dataene til række. Her deserialiseret brugerdefineret serde bruge objektinspektør til at deserialisere data i felter.
24) Hvad er Buckets in Hive?
- Dataene i partitionerne kan opdeles yderligere i Buckets
- Opdelingen udføres baseret på Hash for bestemte kolonner, der er valgt i tabellen.
25) Hvordan kan du aktivere buckets i Hive?
I Hive kan du aktivere buckets ved at bruge følgende kommando,
set.hive.enforce.bucketing=true;
26) Kan du i Hive overskrive Hadoop MapReduce-konfigurationen i Hive?
Ja, du kan overskrive Hadoop MapReduce-konfigurationen i Hive.
27) Forklar hvordan du kan ændre en kolonnedatatype i Hive?
Du kan ændre en kolonnedatatype i Hive ved at bruge kommando,
ALTER TABLE table_name CHANGE column_name column_name new_datatype;
28) Nævn, hvad er forskellen mellem sortering efter og sortering efter i Hive?
- SORT BY vil sortere dataene inden for hver reducering. Du kan bruge et hvilket som helst antal reduktionsgearer til SORT BY operation.
- ORDER BY vil sortere alle data sammen, som skal passere gennem en reducer. Således bruger ORDER BY i hive en enkelt
29) Forklar, hvornår man skal bruge eksplodere i Hive?
Hadoop-udviklere tager nogle gange en matrix som input og konverter til en separat tabelrække. For at konvertere komplekse datatyper til ønskede tabelformater, Hive brug eksploderer.
30) Nævn, hvordan kan du forhindre, at en partitionsform forespørges?
Du kan forhindre, at en partitionsform forespørges ved at bruge ENABLE OFFLINE-sætningen med ALTER TABLE-sætningen.
Disse interviewspørgsmål vil også hjælpe i din viva(orals). Henvis vores Hive tutorials for en ekstra kant i dit interview.
Det er meget nyttigt……..nyttigt……..nyttigt til samtaleforberedelse såvel som selvforberedelse.
Tak! Det er meget nyttigt!
Jeg tror måske du kan tilføje nogle spørgsmål om "dataskævhed", fordi jeg normalt blev bedt om at besvare disse spørgsmål, da jeg var interviewer.
tilføj venligst interviewspørgsmål, som du har stillet