Οι 30 κορυφαίες ερωτήσεις και απαντήσεις για συνέντευξη με κυψέλη (2025)

Ερωτήσεις συνέντευξης με κυψέλη για φρεσκάδες και έμπειρους

Ακολουθούν ερωτήσεις και απαντήσεις συνέντευξης στο Hive για νεοφώτιστους καθώς και έμπειρους υποψηφίους για να πάρουν τη δουλειά των ονείρων τους.

Δωρεάν λήψη PDF: Ερωτήσεις για συνέντευξη με κυψέλη


1) Εξηγήστε τι είναι το Hive;

Το Hive είναι ένα εργαλείο αποθήκευσης δεδομένων ETL και δεδομένων που αναπτύχθηκε πάνω από το κατανεμημένο σύστημα αρχείων Hadoop (HDFS). Είναι ένα πλαίσιο αποθήκης δεδομένων για αναζήτηση και ανάλυση δεδομένων που αποθηκεύονται στο HDFS. Το Hive είναι ένα λογισμικό ανοιχτού κώδικα που επιτρέπει στους προγραμματιστές να αναλύουν μεγάλα σύνολα δεδομένων Hadoop.


2) Πότε να χρησιμοποιήσετε το Hive;

  • Η κυψέλη είναι χρήσιμη κατά την παρασκευή αποθήκη δεδομένων εφαρμογές
  • Όταν έχετε να κάνετε με στατικά δεδομένα αντί για δυναμικά δεδομένα
  • Όταν η εφαρμογή βρίσκεται σε υψηλή καθυστέρηση (υψηλός χρόνος απόκρισης)
  • Όταν διατηρείται ένα μεγάλο σύνολο δεδομένων
  • Όταν χρησιμοποιούμε ερωτήματα αντί για σενάρια

3) Αναφέρετε ποιες είναι οι διαφορετικές λειτουργίες του Hive;

Ανάλογα με το μέγεθος των κόμβων δεδομένων στο Hadoop, το Hive μπορεί να λειτουργήσει σε δύο λειτουργίες. Αυτοί οι τρόποι είναι,

  • Τοπική λειτουργία
  • Λειτουργία μείωσης χάρτη

4) Αναφέρετε πότε να χρησιμοποιήσετε τη λειτουργία μείωσης χάρτη;

Η λειτουργία μείωσης χάρτη χρησιμοποιείται όταν,

  • Θα λειτουργεί σε μεγάλο αριθμό συνόλων δεδομένων και ερωτημάτων που πρόκειται να εκτελεστούν με παράλληλο τρόπο
  • Το Hadoop έχει πολλούς κόμβους δεδομένων και τα δεδομένα διανέμονται σε διαφορετικούς κόμβους που χρησιμοποιούμε το Hive σε αυτήν τη λειτουργία
  • Πρέπει να επιτευχθεί η επεξεργασία μεγάλων συνόλων δεδομένων με καλύτερη απόδοση

5) Αναφέρετε βασικά στοιχεία του Hive Architecture;

Τα βασικά στοιχεία του Hive Architecture περιλαμβάνουν,

  • Διεπαφής χρήστη
  • Μεταγλωττιστής
  • Metastore
  • Οδηγός
  • Εκτέλεση κινητήρα
Ερωτήσεις συνέντευξης με κυψέλη
Ερωτήσεις συνέντευξης με κυψέλη

6) Αναφέρετε ποιοι είναι οι διαφορετικοί τύποι τραπεζιών που διατίθενται στο Hive;

Υπάρχουν δύο τύποι τραπεζιών διαθέσιμα στο Hive.

  • Διαχειριζόμενος πίνακας: Στον διαχειριζόμενο πίνακα, τόσο τα δεδομένα όσο και το σχήμα βρίσκονται υπό τον έλεγχο του Hive
  • Εξωτερικό τραπέζι: Στον εξωτερικό πίνακα, μόνο το σχήμα βρίσκεται υπό τον έλεγχο του Hive.

7) Εξηγήστε τι είναι το Metastore στο Hive;

Το Metastore είναι ένα κεντρικό αποθετήριο στο Hive. Χρησιμοποιείται για την αποθήκευση πληροφοριών σχήματος ή μεταδεδομένων στην εξωτερική βάση δεδομένων.


8) Αναφέρετε από τι αποτελείται η Κυψέλη;

Η κυψέλη αποτελείται από 3 κύρια μέρη,

  1. Πελάτες Hive
  2. Υπηρεσίες Κυψέλης
  3. Αποθήκευση και Υπολογισμός Κυψέλης

9) Αναφέρετε ποιους τύπους βάσης δεδομένων υποστηρίζει το Hive;

Για αποθήκευση μεταδεδομένων ενός χρήστη, το Hive χρησιμοποιεί τη βάση δεδομένων derby και για πολλαπλούς χρήστες Μεταδεδομένα ή κοινόχρηστη περίπτωση μεταδεδομένων χρησιμοποιεί το Hive MySQL.


10) Αναφέρετε τις προεπιλεγμένες τάξεις ανάγνωσης και εγγραφής του Hive;

Οι προεπιλεγμένες κλάσεις ανάγνωσης και εγγραφής του Hive είναι

  1. TextInputFormat/HiveIgnoreKeyTextOutputFormat
  2. SequenceFileInputFormat/SequenceFileOutputFormat

11) Τι είναι η ευρετηρίαση στο Hive;

Η ευρετηρίαση Hive είναι μια τεχνική βελτιστοποίησης ερωτημάτων για τη βελτίωση της ταχύτητας αναζήτησης ερωτημάτων σε ορισμένες στήλες ενός πίνακα.


12) Γιατί το Hive δεν είναι κατάλληλο για συστήματα OLTP;

Το Hive δεν είναι κατάλληλο για συστήματα OLTP επειδή δεν παρέχει λειτουργία εισαγωγής και ενημέρωσης σε επίπεδο σειράς.


13) Αναφέρετε ποια είναι η διαφορά μεταξύ Hbase και Hive;

Η διαφορά μεταξύ Hbase και Hive είναι,

  • Το Hive επιτρέπει το μεγαλύτερο μέρος των SQL ερωτήματα, αλλά το HBase δεν επιτρέπει ερωτήματα SQL
  • Το Hive δεν υποστηρίζει λειτουργίες εισαγωγής, ενημέρωσης και διαγραφής σε επίπεδο εγγραφής στον πίνακα
  • Το Hive είναι ένα πλαίσιο αποθήκης δεδομένων, ενώ το HBase είναι βάση δεδομένων NoSQL
  • Το Hive τρέχει στην κορυφή του MapReduce, το HBase εκτελείται στο επάνω μέρος του HDFS

14) Εξηγήστε τι είναι μια μεταβλητή Hive; Σε τι το χρησιμοποιούμε;

Η μεταβλητή Hive δημιουργείται στο περιβάλλον Hive που μπορεί να γίνει αναφορά από σενάρια Hive. Χρησιμοποιείται για τη μετάδοση ορισμένων τιμών στα ερωτήματα της ομάδας όταν ξεκινά η εκτέλεση του ερωτήματος.


15) Αναφέρετε τι είναι η λειτουργικότητα του ObjectInspector στο Hive;

Η λειτουργία ObjectInspector στο Hive χρησιμοποιείται για την ανάλυση της εσωτερικής δομής των στηλών, των γραμμών και των σύνθετων αντικειμένων. Επιτρέπει την πρόσβαση στα εσωτερικά πεδία μέσα στα αντικείμενα.


16) Αναφέρετε τι είναι το (HS2) HiveServer2;

Είναι μια διεπαφή διακομιστή που εκτελεί τις ακόλουθες λειτουργίες.

  • Επιτρέπει σε απομακρυσμένους πελάτες να εκτελούν ερωτήματα έναντι του Hive
  • Ανακτήστε τα αποτελέσματα των αναφερόμενων ερωτημάτων

Μερικές προηγμένες λειτουργίες που βασίζονται στο Thrift RPC στην τελευταία του έκδοση περιλαμβάνουν

  • Συγχρονισμός πολλών πελατών
  • Πιστοποίηση

17) Αναφέρετε τι κάνει ο επεξεργαστής ερωτημάτων Hive;

Επεξεργαστής ερωτημάτων Hive γραφήματος μετατροπής εργασιών MapReduce με το πλαίσιο χρόνου εκτέλεσης. Για να μπορούν οι εργασίες να εκτελούνται με τη σειρά των εξαρτήσεων.


18) Αναφέρετε ποια είναι τα στοιχεία ενός επεξεργαστή ερωτημάτων Hive;

Τα στοιχεία ενός επεξεργαστή ερωτημάτων Hive περιλαμβάνουν:

  • Δημιουργία Λογικού Σχεδίου
  • Δημιουργία Φυσικού Σχεδίου
  • Μηχανή εκτέλεσης
  • Οι φορείς εκμετάλλευσης
  • UDF και UDAF
  • Optimizer
  • Αναλυτής
  • Σημασιολογικός Αναλυτής
  • Έλεγχος τύπου

19) Αναφέρετε τι είναι το Partitions in Hive;

Το Hive οργανώνει πίνακες σε διαμερίσματα.

  • Είναι ένας από τους τρόπους διαίρεσης των πινάκων σε διαφορετικά μέρη με βάση τα κλειδιά κατάτμησης.
  • Το διαμέρισμα είναι χρήσιμο όταν ο πίνακας έχει ένα ή περισσότερα κλειδιά διαμερίσματος.
  • Τα κλειδιά διαμερίσματος είναι βασικά στοιχεία για τον προσδιορισμό του τρόπου με τον οποίο αποθηκεύονται τα δεδομένα στον πίνακα.

20) Αναφέρετε πότε να επιλέξετε "Internal Table" και "External Table" στο Hive;

Στο Hive μπορείτε να επιλέξετε εσωτερικό τραπέζι,

  • Εάν τα δεδομένα επεξεργασίας είναι διαθέσιμα στο τοπικό σύστημα αρχείων
  • Αν θέλουμε η Hive να διαχειρίζεται τον πλήρη κύκλο ζωής των δεδομένων, συμπεριλαμβανομένης της διαγραφής

Μπορείτε να επιλέξετε Εξωτερικό τραπέζι,

  • Εάν τα δεδομένα επεξεργασίας είναι διαθέσιμα στο HDFS
  • Χρήσιμο όταν τα αρχεία χρησιμοποιούνται εκτός του Hive

21) Αναφέρετε εάν μπορούμε να ονομάσουμε την προβολή όπως το όνομα ενός πίνακα Hive;

Όχι. Το όνομα μιας προβολής πρέπει να είναι μοναδικό σε σύγκριση με όλους τους άλλους πίνακες και ως προβολές που υπάρχουν στην ίδια βάση δεδομένων.


22) Αναφέρετε τι είναι οι προβολές στο Hive;

Στο Hive, οι προβολές είναι παρόμοιες με τους πίνακες. Δημιουργούνται με βάση τις απαιτήσεις.

  • Μπορούμε να αποθηκεύσουμε οποιαδήποτε δεδομένα συνόλου αποτελεσμάτων ως προβολή στο Hive
  • Η χρήση είναι παρόμοια με τις προβολές που χρησιμοποιούνται στην SQL
  • Όλοι οι τύποι λειτουργιών DML μπορούν να εκτελεστούν σε μια προβολή

23) Εξηγήστε πώς το Hive Deserialize και σειριοποίηση των δεδομένων;

Συνήθως, κατά την ανάγνωση/εγγραφή των δεδομένων, ο χρήστης επικοινωνεί πρώτα με τη μορφή εισόδου. Στη συνέχεια συνδέεται με το πρόγραμμα ανάγνωσης εγγραφών για ανάγνωση/εγγραφή εγγραφής. Για τη σειριοποίηση των δεδομένων, τα δεδομένα πηγαίνουν στη σειρά. Εδώ, το αποσειροποιημένο προσαρμοσμένο serde χρησιμοποιεί τον επιθεωρητή αντικειμένων για να αποσειροποιήσει τα δεδομένα σε πεδία.


24) Τι είναι τα Buckets in Hive;

  • Τα δεδομένα που υπάρχουν στα διαμερίσματα μπορούν να χωριστούν περαιτέρω σε Buckets
  • Η διαίρεση πραγματοποιείται με βάση τον κατακερματισμό συγκεκριμένων στηλών που επιλέγεται στον πίνακα.

25) Στο Hive, πώς μπορείτε να ενεργοποιήσετε τους κάδους;

Στο Hive, μπορείτε να ενεργοποιήσετε τους κάδους χρησιμοποιώντας την ακόλουθη εντολή:

set.hive.enforce.bucketing=true;

26) Στο Hive, μπορείτε να αντικαταστήσετε τη διαμόρφωση Hadoop MapReduce στο Hive;

Ναι, μπορείτε να αντικαταστήσετε τη διαμόρφωση Hadoop MapReduce στο Hive.


27) Εξηγήστε πώς μπορείτε να αλλάξετε έναν τύπο δεδομένων στήλης στο Hive;

Μπορείτε να αλλάξετε έναν τύπο δεδομένων στήλης στο Hive χρησιμοποιώντας την εντολή,

ALTER TABLE table_name CHANGE column_name column_name new_datatype;

28) Αναφέρετε ποια είναι η διαφορά μεταξύ της σειράς κατά και της ταξινόμησης κατά στο Hive;

  • Το SORT BY θα ταξινομήσει τα δεδομένα σε κάθε μειωτήρα. Μπορείτε να χρησιμοποιήσετε οποιοδήποτε αριθμό μειωτήρων για τη λειτουργία SORT BY.
  • ORDER BY θα ταξινομήσει όλα τα δεδομένα μαζί, τα οποία πρέπει να περάσουν από έναν μειωτήρα. Έτσι, το ORDER BY στην κυψέλη χρησιμοποιεί ένα μόνο

29) Εξηγήστε πότε να χρησιμοποιήσετε το explode στο Hive;

Οι προγραμματιστές Hadoop μερικές φορές παίρνουν ένα παράταξη ως είσοδο και μετατροπή σε ξεχωριστή σειρά πίνακα. Για να μετατρέψετε σύνθετους τύπους δεδομένων σε επιθυμητές μορφές πίνακα, το Hive χρησιμοποιεί το explode.


30) Αναφέρετε πώς μπορείτε να σταματήσετε το ερώτημα για μια φόρμα κατάτμησης;

Μπορείτε να σταματήσετε την υποβολή ερωτημάτων σε μια φόρμα διαμερίσματος χρησιμοποιώντας την πρόταση ΕΝΕΡΓΟΠΟΙΗΣΗ ΕΚΤΟΣ ΣΥΝΔΕΣΗΣ με την πρόταση ALTER TABLE.

Αυτές οι ερωτήσεις συνέντευξης θα βοηθήσουν επίσης στο viva (προφορικά) σας. Αναφερθείτε μας Tutorials Hive για ένα επιπλέον πλεονέκτημα στη συνέντευξή σας.

Κοινοποίηση

3 Σχόλια

  1. Avatar Σατγιαραντζάν Σινγκ λέει:

    Είναι πολύ χρήσιμο……..χρήσιμο……..βοηθητικό για προετοιμασία συνέντευξης καθώς και για αυτοπροετοιμασία.

  2. Σας ευχαριστώ! Είναι πολύ βοηθητικό!

    Νομίζω ότι ίσως μπορείτε να προσθέσετε μερικές ερωτήσεις σχετικά με τη "λοξή δεδομένων" , επειδή συνήθως μου ζητούσαν να απαντήσω σε αυτές τις ερωτήσεις όταν ήμουν συνεντευκτής.

    1. Avatar meenakshi λέει:

      παρακαλώ προσθέστε ερωτήσεις συνέντευξης, που έχετε κάνει

Αφήστε μια απάντηση

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται *