30 nejčastějších otázek a odpovědí na pohovor s úlem (2025)

Otázky k pohovoru s úlem pro začátečníky a zkušené

Zde jsou otázky a odpovědi na pohovor Hive pro začátečníky i zkušené kandidáty, aby získali svou vysněnou práci.

Zdarma ke stažení PDF: Otázky k pohovoru v úlu


1) Vysvětlete, co je Hive?

Hive je nástroj pro ETL a datové sklady vyvinutý nad Hadoop Distributed File System (HDFS). Jedná se o rámec datového skladu pro dotazování a analýzu dat uložených v HDFS. Hive je software s otevřeným zdrojovým kódem, který umožňuje programátorům analyzovat velké soubory dat Hadoop.


2) Kdy použít Hive?

  • Úl je užitečný při výrobě datový sklad aplikace
  • Když se zabýváte statickými daty namísto dynamickými daty
  • Když je aplikace ve vysoké latenci (vysoká doba odezvy)
  • Když je udržován velký soubor dat
  • Když místo skriptování používáme dotazy

3) Uveďte, jaké jsou různé režimy Úlu?

V závislosti na velikosti datových uzlů v Hadoopu může Hive fungovat ve dvou režimech. Tyto režimy jsou,

  • Místní režim
  • Režim zmenšení mapy

4) Uveďte, kdy použít režim zmenšení mapy?

Režim zmenšení mapy se používá, když

  • Bude pracovat na velkém množství datových sad a dotazů, které se budou provádět paralelně
  • Hadoop má více datových uzlů a data jsou distribuována napříč různými uzly, které v tomto režimu používáme Hive
  • Je třeba dosáhnout lepšího výkonu zpracování velkých souborů dat

5) Zmínit klíčové komponenty Hive Architecture?

Klíčové součásti architektury Hive zahrnují,

  • Uživatelské rozhraní
  • překladač
  • Metastore
  • Řidič
  • Spustit motor
Otázky k pohovoru s úlem
Otázky k pohovoru s úlem

6) Uveďte, jaké různé typy stolů jsou v Hive k dispozici?

V Hive jsou k dispozici dva typy tabulek.

  • Spravovaný stůl: Ve spravované tabulce jsou data i schéma pod kontrolou Hive
  • Externí stůl: V externí tabulce je pouze schéma pod kontrolou Hive.

7) Vysvětlete, co je Metastore in Hive?

Metastore je centrální úložiště v Hive. Používá se pro ukládání informací o schématu nebo metadat v externí databázi.


8) Uveďte, z čeho se Úl skládá?

Úl se skládá ze 3 hlavních částí,

  1. Klienti Hive
  2. Úlové služby
  3. Úlové úložiště a výpočetní technika

9) Uveďte, jaké typy databází Hive podporuje?

Pro ukládání metadat pro jednoho uživatele používá Hive databázi derby a pro více uživatelů metadata nebo sdílený případ metadat používá Hive MySQL.


10) Uveďte výchozí třídy čtení a zápisu Hive?

Výchozí třídy čtení a zápisu podregistru jsou

  1. TextInputFormat/HiveIgnoreKeyTextOutputFormat
  2. SequenceFileInputFormat/SequenceFileOutputFormat

11) Co je indexování v Hive?

Indexování podregistrů je technika optimalizace dotazů, která zlepšuje rychlost vyhledávání dotazů v určitých sloupcích tabulky.


12) Proč není Hive vhodný pro systémy OLTP?

Hive není vhodný pro systémy OLTP, protože neposkytuje funkci vkládání a aktualizace na úrovni řádku.


13) Uveďte, jaký je rozdíl mezi Hbase a Hive?

Rozdíl mezi Hbase a Hive je,

  • Úl umožňuje většinu SQL dotazy, ale HBase neumožňuje SQL dotazy
  • Podregistr nepodporuje operace vkládání, aktualizace a mazání na úrovni záznamu v tabulce
  • Hive je rámec datového skladu, zatímco HBase je databáze NoSQL
  • Hive běží v horní části MapReduce, HBase běží v horní části HDFS

14) Vysvětlete, co je proměnná Úlu? K čemu to používáme?

Proměnná Hive je vytvořena v prostředí Hive, na kterou lze odkazovat skripty Hive. Používá se k předání některých hodnot do dotazů podregistru, když se dotaz spustí.


15) Uveďte, co je funkce ObjectInspector v Hive?

Funkce ObjectInspector v Hive se používá k analýze vnitřní struktury sloupců, řádků a složitých objektů. Umožňuje přístup k vnitřním polím uvnitř objektů.


16) Uveďte, co je (HS2) HiveServer2?

Jedná se o serverové rozhraní, které provádí následující funkce.

  • Umožňuje vzdáleným klientům provádět dotazy proti Hive
  • Získejte výsledky uvedených dotazů

Některé pokročilé funkce založené na Thrift RPC v jeho nejnovější verzi zahrnují

  • Souběh více klientů
  • Ověřování

17) Uveďte, co dělá procesor dotazů Hive?

Graf převodu dotazů úlového procesoru úloh MapReduce s rámcem doby provádění. Aby bylo možné úlohy provádět v pořadí závislostí.


18) Uveďte, jaké jsou součásti procesoru dotazů Hive?

Mezi komponenty procesoru dotazů Hive patří,

  • Generování logického plánu
  • Generování fyzického plánu
  • Prováděcí motor
  • Operátoři
  • UDF a UDAF
  • Optimalizátor
  • Parser
  • Sémantický analyzátor
  • Kontrola typu

19) Uveďte, co jsou oddíly v úlu?

Hive organizuje tabulky do oddílů.

  • Je to jeden ze způsobů rozdělení tabulek na různé části na základě klíčů oddílů.
  • Oddíl je užitečný, když tabulka obsahuje jeden nebo více klíčů oddílu.
  • Klíče oddílů jsou základními prvky pro určení způsobu uložení dat v tabulce.

20) Uveďte, kdy v Hive zvolit „Interní tabulka“ a „Externí tabulka“?

V Hive si můžete vybrat vnitřní tabulku,

  • Pokud jsou data o zpracování dostupná v místním systému souborů
  • Pokud chceme, aby Hive spravoval kompletní životní cyklus dat včetně mazání

Můžete si vybrat externí stůl,

  • Pokud jsou data zpracování dostupná v HDFS
  • Užitečné, když jsou soubory používány mimo Hive

21) Uveďte, zda můžeme pohled pojmenovat stejně jako název tabulky Úlu?

Ne. Název pohledu musí být jedinečný ve srovnání se všemi ostatními tabulkami a jako pohledy ve stejné databázi.


22) Uveďte, jaké jsou zobrazení v Hive?

V Hive jsou zobrazení podobná tabulkám. Jsou generovány na základě požadavků.

  • Jakákoli data sady výsledků můžeme uložit jako zobrazení v Hive
  • Použití je podobné pohledům používaným v SQL
  • Na pohledu lze provádět všechny typy operací DML

23) Vysvětlete, jak Hive deserializovat a serializovat data?

Obvykle při čtení/zápisu dat uživatel nejprve komunikuje se vstupním formátem. Poté se spojí se čtečkou záznamů pro čtení/zápis záznamu. Pro serializaci dat přejdou data do řádku. Zde deserializované vlastní serde používají inspektor objektů k deserializaci dat v polích.


24) Co jsou Buckets in Hive?

  • Data přítomná v oddílech lze dále rozdělit do segmentů
  • Rozdělení se provádí na základě hash jednotlivých sloupců, který je vybrán v tabulce.

25) Jak můžete v Hive povolit buckety?

V Hive můžete povolit buckety pomocí následujícího příkazu,

set.hive.enforce.bucketing=true;

26) Můžete v Hive přepsat konfiguraci Hadoop MapReduce v Hive?

Ano, konfiguraci Hadoop MapReduce můžete přepsat v Hive.


27) Vysvětlete, jak můžete změnit typ dat sloupce v Hive?

Typ dat sloupce v Hive můžete změnit pomocí příkazu,

ALTER TABLE table_name CHANGE column_name column_name new_datatype;

28) Uveďte, jaký je rozdíl mezi řazením podle a řazením podle v Hive?

  • SORT BY seřadí data v každé redukci. Pro provoz SORT BY můžete použít libovolný počet reduktorů.
  • ORDER BY seřadí všechna data dohromady, která musí projít jednou reduktorem. Takže ORDER BY v úlu používá single

29) Vysvětlete, kdy použít explode v Hive?

Hadoop vývojáři někdy berou řada jako vstup a převést na samostatný řádek tabulky. Chcete-li převést komplexní datové typy do požadovaných formátů tabulek, použijte Hive explode.


30) Uveďte, jak můžete zastavit dotazování formuláře oddílu?

Dotazovaný formulář oddílu můžete zastavit pomocí klauzule ENABLE OFFLINE s příkazem ALTER TABLE.

Tyto otázky na pohovoru také pomohou ve vašem viva (orals). Odkazujte na naše Výukové programy úlu pro extra výhodu při pohovoru.

Sdílet

3 Komentáře

  1. avatar Satyaranjan Singh říká:

    Je to velmi užitečné……..užitečné……..užitečné při přípravě na pohovor i při vlastní přípravě.

  2. Děkuji! Je to velmi užitečné!

    Myslím, že možná můžete přidat nějaké otázky o „překroucení dat“, protože jsem byl obvykle požádán, abych na tyto otázky odpověděl, když jsem byl tazatelem.

    1. avatar meenakshi říká:

      prosím přidejte otázky k rozhovoru, které jste položili

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *