Le 30 migliori domande e risposte all'intervista Hive (2025)

Domande di intervista Hive per matricole ed esperti

Ecco le domande e le risposte al colloquio Hive per le matricole e i candidati esperti per ottenere il lavoro dei loro sogni.

Download gratuito del PDF: domande dell'intervista Hive


1) Spiegare cos'è Hive?

Hive è uno strumento ETL e di data warehousing sviluppato su Hadoop Distributed File System (HDFS). Si tratta di un framework di data warehouse per l'interrogazione e l'analisi dei dati archiviati in HDFS. Hive è un software open source che consente ai programmatori di analizzare grandi set di dati su Hadoop.


2) Quando utilizzare Hive?

  • Hive è utile durante la creazione data warehouse applicazioni
  • Quando hai a che fare con dati statici anziché dati dinamici
  • Quando l'applicazione ha una latenza elevata (tempo di risposta elevato)
  • Quando viene mantenuto un set di dati di grandi dimensioni
  • Quando utilizziamo query anziché script

3) Menziona quali sono le diverse modalità di Hive?

A seconda della dimensione dei nodi dati in Hadoop, Hive può funzionare in due modalità. Queste modalità sono,

  • Modalità locale
  • Modalità di riduzione della mappa

4) Menzionare quando utilizzare la modalità di riduzione della mappa?

La modalità di riduzione della mappa viene utilizzata quando,

  • Funzionerà su grandi quantità di set di dati e query che verranno eseguite in modo parallelo
  • Hadoop ha più nodi di dati e i dati vengono distribuiti su diversi nodi in cui utilizziamo Hive in questa modalità
  • È necessario ottenere l'elaborazione di set di dati di grandi dimensioni con prestazioni migliori

5) Menzionare i componenti chiave di Hive Architecture?

I componenti chiave di Hive Architecture includono,

  • Interfaccia utente
  • Compiler
  • Metastotore
  • Guidatore
  • Esegui motore
Domande per l'intervista ad Hive
Domande per l'intervista ad Hive

6) Menziona quali sono i diversi tipi di tabelle disponibili in Hive?

In Hive sono disponibili due tipi di tabelle.

  • Tabella gestita: nella tabella gestita, sia i dati che lo schema sono sotto il controllo di Hive
  • Tavolo esterno: nella tabella esterna, solo lo schema è sotto il controllo di Hive.

7) Spiegare cos'è Metastore in Hive?

Metastore è un repository centrale in Hive. Viene utilizzato per archiviare informazioni sullo schema o metadati nel database esterno.


8) Dire da cosa è composto Hive?

L'alveare è composto da 3 parti principali,

  1. Clienti Hive
  2. Servizi dell'alveare
  3. Archiviazione e informatica dell'alveare

9) Indicare quali sono i tipi di database supportati da Hive?

Per l'archiviazione dei metadati di un singolo utente, Hive utilizza il database derby e per i metadati di più utenti o il caso di metadati condivisi utilizza Hive MYSQL.


10) Menzionare le classi di lettura e scrittura predefinite di Hive?

Le classi di lettura e scrittura predefinite di Hive sono

  1. TextInputFormat/hiveGoReKeyTextOutputFormat
  2. SequenceFileInputFormat/SequenceFileOutputFormat

11) Cos'è l'indicizzazione in Hive?

L'indicizzazione Hive è una tecnica di ottimizzazione delle query per migliorare la velocità di ricerca delle query su determinate colonne di una tabella.


12) Perché Hive non è adatto ai sistemi OLTP?

Hive non è adatto ai sistemi OLTP perché non fornisce la funzione di inserimento e aggiornamento a livello di riga.


13) Menziona qual è la differenza tra Hbase e Hive?

La differenza tra Hbase e Hive è,

  • Hive consente la maggior parte di SQL query, ma HBase non consente query SQL
  • Hive non supporta le operazioni di inserimento, aggiornamento ed eliminazione a livello di record sulla tabella
  • Hive è un framework di data warehouse mentre HBase è un database NoSQL
  • Hive viene eseguito su MapReduce, HBase viene eseguito su HDFS

14) Spiegare cos'è una variabile Hive? Per cosa lo usiamo?

La variabile Hive viene creata nell'ambiente Hive a cui è possibile fare riferimento tramite script Hive. Viene utilizzato per passare alcuni valori alle query hive quando la query inizia l'esecuzione.


15) Menzionare qual è la funzionalità ObjectInspector in Hive?

La funzionalità ObjectInspector in Hive viene utilizzata per analizzare la struttura interna di colonne, righe e oggetti complessi. Permette di accedere ai campi interni agli oggetti.


16) Menziona cos'è (HS2) HiveServer2?

È un'interfaccia server che esegue le seguenti funzioni.

  • Consente ai client remoti di eseguire query su Hive
  • Recupera i risultati delle query menzionate

Alcune funzionalità avanzate basate su Thrift RPC nella sua ultima versione includono

  • Concorrenza multi-client
  • Autenticazione

17) Menzionare cosa fa il processore di query Hive?

Hive Query Processor converte il grafico dei lavori MapReduce con il framework del tempo di esecuzione. In modo che i lavori possano essere eseguiti nell'ordine delle dipendenze.


18) Menzionare quali sono i componenti di un processore di query Hive?

I componenti di un processore di query Hive includono,

  • Generazione del piano logico
  • Generazione del piano fisico
  • Motore di esecuzione
  • Operatori
  • UDF e UDAF
  • Optimizer
  • parser
  • Analizzatore semantico
  • Digitare il controllo

19) Menziona cosa sono le partizioni in Hive?

Hive organizza le tabelle in partizioni.

  • È uno dei modi per dividere le tabelle in parti diverse in base alle chiavi di partizione.
  • La partizione è utile quando la tabella ha una o più chiavi di partizione.
  • Le chiavi di partizione sono elementi di base per determinare la modalità di archiviazione dei dati nella tabella.

20) Menzionare quando scegliere "Tabella interna" e "Tabella esterna" in Hive?

In Hive puoi scegliere la tabella interna,

  • Se i dati di elaborazione sono disponibili nel file system locale
  • Se vogliamo che Hive gestisca l'intero ciclo di vita dei dati compresa la cancellazione

Puoi scegliere la tabella esterna,

  • Se si elaborano dati disponibili in HDFS
  • Utile quando i file vengono utilizzati all'esterno di Hive

21) Menzionare se possiamo denominare la vista come il nome di una tabella Hive?

No. Il nome di una vista deve essere univoco rispetto a tutte le altre tabelle e come viste presenti nello stesso database.


22) Menziona cosa sono le visualizzazioni in Hive?

In Hive, le visualizzazioni sono simili alle tabelle. Vengono generati in base ai requisiti.

  • Possiamo salvare qualsiasi dato del set di risultati come visualizzazione in Hive
  • L'utilizzo è simile alle visualizzazioni utilizzate in SQL
  • Tutti i tipi di operazioni DML possono essere eseguiti su una vista

23) Spiegare come Hive deserializza e serializza i dati?

Di solito, durante la lettura/scrittura dei dati, l'utente comunica prima con il formato di input. Quindi si connette al lettore di record per leggere/scrivere il record. Per serializzare i dati, i dati vanno a row. Qui il serde personalizzato deserializzato utilizza l'ispettore oggetto per deserializzare i dati nei campi.


24) Che cosa sono i bucket in Hive?

  • I dati presenti nelle partizioni possono essere ulteriormente suddivisi in Bucket
  • La divisione viene eseguita in base all'Hash di particolari colonne selezionate nella tabella.

25) In Hive, come si abilitano i bucket?

In Hive puoi abilitare i bucket utilizzando il comando seguente:

set.hive.enforce.bucketing=true;

26) In Hive, puoi sovrascrivere la configurazione di Hadoop MapReduce in Hive?

Sì, puoi sovrascrivere la configurazione di Hadoop MapReduce in Hive.


27) Spiega come puoi modificare il tipo di dati di una colonna in Hive?

Puoi modificare il tipo di dati di una colonna in Hive utilizzando il comando,

ALTER TABLE table_name CHANGE column_name column_name new_datatype;

28) Menziona qual è la differenza tra ordina per e ordina per in Hive?

  • SORT BY ordinerà i dati all'interno di ciascun riduttore. È possibile utilizzare un numero qualsiasi di riduttori per l'operazione ORDINA PER.
  • ORDER BY ordinerà tutti i dati insieme, che devono passare attraverso un riduttore. Pertanto, ORDER BY in hive utilizza un singolo

29) Spiegare quando utilizzare esplodere in Hive?

Gli sviluppatori Hadoop a volte accettano un file schieramento come input e convertirlo in una riga di tabella separata. Per convertire tipi di dati complessi nei formati di tabella desiderati, Hive utilizza l'esplosione.


30) Menzionare come è possibile interrompere l'interrogazione di un modulo di partizione?

È possibile interrompere l'esecuzione di query su un modulo di partizione utilizzando la clausola ENABLE OFFLINE con l'istruzione ALTER TABLE.

Queste domande dell'intervista ti aiuteranno anche nella tua viva(orale). Segnala il nostro Tutorial sull'alveare per un tocco in più nella tua intervista.

Condividi

Commenti

  1. Avatar Satyaranjan Singh dice:

    È molto utile……..utile……..utile per la preparazione al colloquio e per l'autopreparazione.

  2. Grazie! È molto utile!

    Penso che forse potresti aggiungere alcune domande sulla "distorsione dei dati", perché di solito mi veniva chiesto di rispondere a queste domande quando ero un intervistatore.

    1. Avatar Meenakshi dice:

      per favore aggiungi le domande dell'intervista che hai chiesto

Lascia un Commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *