30 nejčastějších otázek a odpovědí na pohovor s úlem (2025)
Otázky k pohovoru s úlem pro začátečníky a zkušené
Zde jsou otázky a odpovědi na pohovor Hive pro začátečníky i zkušené kandidáty, aby získali svou vysněnou práci.
Zdarma ke stažení PDF: Otázky k pohovoru v úlu
1) Vysvětlete, co je Hive?
Hive je nástroj pro ETL a datové sklady vyvinutý nad Hadoop Distributed File System (HDFS). Jedná se o rámec datového skladu pro dotazování a analýzu dat uložených v HDFS. Hive je software s otevřeným zdrojovým kódem, který umožňuje programátorům analyzovat velké soubory dat Hadoop.
2) Kdy použít Hive?
- Úl je užitečný při výrobě datový sklad aplikace
- Když se zabýváte statickými daty namísto dynamickými daty
- Když je aplikace ve vysoké latenci (vysoká doba odezvy)
- Když je udržován velký soubor dat
- Když místo skriptování používáme dotazy
3) Uveďte, jaké jsou různé režimy Úlu?
V závislosti na velikosti datových uzlů v Hadoopu může Hive fungovat ve dvou režimech. Tyto režimy jsou,
- Místní režim
- Režim zmenšení mapy
4) Uveďte, kdy použít režim zmenšení mapy?
Režim zmenšení mapy se používá, když
- Bude pracovat na velkém množství datových sad a dotazů, které se budou provádět paralelně
- Hadoop má více datových uzlů a data jsou distribuována napříč různými uzly, které v tomto režimu používáme Hive
- Je třeba dosáhnout lepšího výkonu zpracování velkých souborů dat
5) Zmínit klíčové komponenty Hive Architecture?
Klíčové součásti architektury Hive zahrnují,
- Uživatelské rozhraní
- překladač
- Metastore
- Řidič
- Spustit motor
6) Uveďte, jaké různé typy stolů jsou v Hive k dispozici?
V Hive jsou k dispozici dva typy tabulek.
- Spravovaný stůl: Ve spravované tabulce jsou data i schéma pod kontrolou Hive
- Externí stůl: V externí tabulce je pouze schéma pod kontrolou Hive.
7) Vysvětlete, co je Metastore in Hive?
Metastore je centrální úložiště v Hive. Používá se pro ukládání informací o schématu nebo metadat v externí databázi.
8) Uveďte, z čeho se Úl skládá?
Úl se skládá ze 3 hlavních částí,
- Klienti Hive
- Úlové služby
- Úlové úložiště a výpočetní technika
9) Uveďte, jaké typy databází Hive podporuje?
Pro ukládání metadat pro jednoho uživatele používá Hive databázi derby a pro více uživatelů metadata nebo sdílený případ metadat používá Hive MySQL.
10) Uveďte výchozí třídy čtení a zápisu Hive?
Výchozí třídy čtení a zápisu podregistru jsou
- TextInputFormat/HiveIgnoreKeyTextOutputFormat
- SequenceFileInputFormat/SequenceFileOutputFormat
11) Co je indexování v Hive?
Indexování podregistrů je technika optimalizace dotazů, která zlepšuje rychlost vyhledávání dotazů v určitých sloupcích tabulky.
12) Proč není Hive vhodný pro systémy OLTP?
Hive není vhodný pro systémy OLTP, protože neposkytuje funkci vkládání a aktualizace na úrovni řádku.
13) Uveďte, jaký je rozdíl mezi Hbase a Hive?
Rozdíl mezi Hbase a Hive je,
- Úl umožňuje většinu SQL dotazy, ale HBase neumožňuje SQL dotazy
- Podregistr nepodporuje operace vkládání, aktualizace a mazání na úrovni záznamu v tabulce
- Hive je rámec datového skladu, zatímco HBase je databáze NoSQL
- Hive běží v horní části MapReduce, HBase běží v horní části HDFS
14) Vysvětlete, co je proměnná Úlu? K čemu to používáme?
Proměnná Hive je vytvořena v prostředí Hive, na kterou lze odkazovat skripty Hive. Používá se k předání některých hodnot do dotazů podregistru, když se dotaz spustí.
15) Uveďte, co je funkce ObjectInspector v Hive?
Funkce ObjectInspector v Hive se používá k analýze vnitřní struktury sloupců, řádků a složitých objektů. Umožňuje přístup k vnitřním polím uvnitř objektů.
16) Uveďte, co je (HS2) HiveServer2?
Jedná se o serverové rozhraní, které provádí následující funkce.
- Umožňuje vzdáleným klientům provádět dotazy proti Hive
- Získejte výsledky uvedených dotazů
Některé pokročilé funkce založené na Thrift RPC v jeho nejnovější verzi zahrnují
- Souběh více klientů
- Ověřování
17) Uveďte, co dělá procesor dotazů Hive?
Graf převodu dotazů úlového procesoru úloh MapReduce s rámcem doby provádění. Aby bylo možné úlohy provádět v pořadí závislostí.
18) Uveďte, jaké jsou součásti procesoru dotazů Hive?
Mezi komponenty procesoru dotazů Hive patří,
- Generování logického plánu
- Generování fyzického plánu
- Prováděcí motor
- Operátoři
- UDF a UDAF
- Optimalizátor
- Parser
- Sémantický analyzátor
- Kontrola typu
19) Uveďte, co jsou oddíly v úlu?
Hive organizuje tabulky do oddílů.
- Je to jeden ze způsobů rozdělení tabulek na různé části na základě klíčů oddílů.
- Oddíl je užitečný, když tabulka obsahuje jeden nebo více klíčů oddílu.
- Klíče oddílů jsou základními prvky pro určení způsobu uložení dat v tabulce.
20) Uveďte, kdy v Hive zvolit „Interní tabulka“ a „Externí tabulka“?
V Hive si můžete vybrat vnitřní tabulku,
- Pokud jsou data o zpracování dostupná v místním systému souborů
- Pokud chceme, aby Hive spravoval kompletní životní cyklus dat včetně mazání
Můžete si vybrat externí stůl,
- Pokud jsou data zpracování dostupná v HDFS
- Užitečné, když jsou soubory používány mimo Hive
21) Uveďte, zda můžeme pohled pojmenovat stejně jako název tabulky Úlu?
Ne. Název pohledu musí být jedinečný ve srovnání se všemi ostatními tabulkami a jako pohledy ve stejné databázi.
22) Uveďte, jaké jsou zobrazení v Hive?
V Hive jsou zobrazení podobná tabulkám. Jsou generovány na základě požadavků.
- Jakákoli data sady výsledků můžeme uložit jako zobrazení v Hive
- Použití je podobné pohledům používaným v SQL
- Na pohledu lze provádět všechny typy operací DML
23) Vysvětlete, jak Hive deserializovat a serializovat data?
Obvykle při čtení/zápisu dat uživatel nejprve komunikuje se vstupním formátem. Poté se spojí se čtečkou záznamů pro čtení/zápis záznamu. Pro serializaci dat přejdou data do řádku. Zde deserializované vlastní serde používají inspektor objektů k deserializaci dat v polích.
24) Co jsou Buckets in Hive?
- Data přítomná v oddílech lze dále rozdělit do segmentů
- Rozdělení se provádí na základě hash jednotlivých sloupců, který je vybrán v tabulce.
25) Jak můžete v Hive povolit buckety?
V Hive můžete povolit buckety pomocí následujícího příkazu,
set.hive.enforce.bucketing=true;
26) Můžete v Hive přepsat konfiguraci Hadoop MapReduce v Hive?
Ano, konfiguraci Hadoop MapReduce můžete přepsat v Hive.
27) Vysvětlete, jak můžete změnit typ dat sloupce v Hive?
Typ dat sloupce v Hive můžete změnit pomocí příkazu,
ALTER TABLE table_name CHANGE column_name column_name new_datatype;
28) Uveďte, jaký je rozdíl mezi řazením podle a řazením podle v Hive?
- SORT BY seřadí data v každé redukci. Pro provoz SORT BY můžete použít libovolný počet reduktorů.
- ORDER BY seřadí všechna data dohromady, která musí projít jednou reduktorem. Takže ORDER BY v úlu používá single
29) Vysvětlete, kdy použít explode v Hive?
Hadoop vývojáři někdy berou řada jako vstup a převést na samostatný řádek tabulky. Chcete-li převést komplexní datové typy do požadovaných formátů tabulek, použijte Hive explode.
30) Uveďte, jak můžete zastavit dotazování formuláře oddílu?
Dotazovaný formulář oddílu můžete zastavit pomocí klauzule ENABLE OFFLINE s příkazem ALTER TABLE.
Tyto otázky na pohovoru také pomohou ve vašem viva (orals). Odkazujte na naše Výukové programy úlu pro extra výhodu při pohovoru.
Je to velmi užitečné……..užitečné……..užitečné při přípravě na pohovor i při vlastní přípravě.
Děkuji! Je to velmi užitečné!
Myslím, že možná můžete přidat nějaké otázky o „překroucení dat“, protože jsem byl obvykle požádán, abych na tyto otázky odpověděl, když jsem byl tazatelem.
prosím přidejte otázky k rozhovoru, které jste položili