30 câu hỏi phỏng vấn Hive và câu trả lời hàng đầu (2025)

Câu hỏi phỏng vấn Hive dành cho người mới và người có kinh nghiệm

Dưới đây là những câu hỏi và câu trả lời phỏng vấn Hive dành cho cả ứng viên mới và ứng viên có kinh nghiệm để có được công việc mơ ước của mình.

Tải xuống PDF miễn phí: Câu hỏi phỏng vấn Hive


1) Giải thích Hive là gì?

Hive là một công cụ ETL và kho dữ liệu được phát triển trên Hadoop Distributed File System (HDFS). Đây là một khuôn khổ kho dữ liệu để truy vấn và phân tích dữ liệu được lưu trữ trong HDFS. Hive là một phần mềm nguồn mở cho phép các lập trình viên phân tích các tập dữ liệu lớn trên Hadoop.


2) Khi nào nên sử dụng Hive?

  • Hive hữu ích khi làm kho dữ liệu các ứng dụng
  • Khi bạn đang xử lý dữ liệu tĩnh thay vì dữ liệu động
  • Khi ứng dụng có độ trễ cao (thời gian phản hồi cao)
  • Khi một tập dữ liệu lớn được duy trì
  • Khi chúng ta sử dụng truy vấn thay vì tập lệnh

3) Hãy nêu những chế độ khác nhau của Hive?

Tùy thuộc vào kích thước của các nút dữ liệu trong Hadoop, Hive có thể hoạt động ở hai chế độ. Các chế độ này là,

  • Chế độ cục bộ
  • Chế độ thu nhỏ bản đồ

4) Khi nào nên sử dụng chế độ thu nhỏ bản đồ?

Chế độ thu nhỏ bản đồ được sử dụng khi,

  • Nó sẽ thực hiện trên một lượng lớn các tập dữ liệu và truy vấn sẽ được thực hiện theo cách song song
  • Hadoop có nhiều nút dữ liệu và dữ liệu được phân phối trên các nút khác nhau, chúng tôi sử dụng Hive ở chế độ này
  • Việc xử lý các tập dữ liệu lớn với hiệu suất tốt hơn cần phải đạt được

5) Hãy kể tên các thành phần chính của Kiến trúc Hive?

Các thành phần chính của Hive Architecture bao gồm:

  • Giao diện người dùng
  • Trình biên dịch
  • Kho hàng
  • Người lái xe
  • Thực hiện Engine
Câu hỏi phỏng vấn Hive
Câu hỏi phỏng vấn Hive

6) Hãy cho biết có những loại bảng nào có sẵn trong Hive?

Có hai loại bảng có sẵn trong Hive.

  • Bảng được quản lý: Trong bảng được quản lý, cả dữ liệu và lược đồ đều nằm trong tầm kiểm soát của Hive
  • Bảng ngoài:Trong bảng bên ngoài, chỉ có lược đồ nằm dưới sự kiểm soát của Hive.

7) Giải thích Metastore trong Hive là gì?

Metastore là kho lưu trữ trung tâm trong Hive. Nó được sử dụng để lưu trữ thông tin lược đồ hoặc siêu dữ liệu trong cơ sở dữ liệu bên ngoài.


8) Hãy cho biết Hive được cấu tạo từ những thành phần nào?

Tổ ong bao gồm 3 phần chính,

  1. Khách hàng tổ ong
  2. dịch vụ tổ ong
  3. Lưu trữ và tính toán Hive

9) Hive hỗ trợ những loại cơ sở dữ liệu nào?

Để lưu trữ siêu dữ liệu của một người dùng, Hive sử dụng cơ sở dữ liệu derby và cho nhiều trường hợp Siêu dữ liệu người dùng hoặc siêu dữ liệu được chia sẻ mà Hive sử dụng MYSQL.


10) Có đề cập đến các lớp đọc và ghi mặc định của Hive không?

Các lớp đọc và ghi mặc định của Hive là

  1. Định dạng TextInputFormat/HiveIgnoreKeyTextOutputFormat
  2. Định dạng đầu vào của SequenceFile/Định dạng đầu ra của SequenceFile

11) Lập chỉ mục trong Hive là gì?

Lập chỉ mục theo nhóm là một kỹ thuật tối ưu hóa truy vấn nhằm cải thiện tốc độ tra cứu truy vấn trên các cột nhất định của bảng.


12) Tại sao Hive không phù hợp với hệ thống OLTP?

Hive không phù hợp với hệ thống OLTP vì nó không cung cấp chức năng chèn và cập nhật ở cấp độ hàng.


13) Hãy cho biết sự khác biệt giữa Hbase và Hive là gì?

Sự khác biệt giữa Hbase và Hive là,

  • Hive cho phép hầu hết các SQL truy vấn, nhưng HBase không cho phép truy vấn SQL
  • Hive không hỗ trợ các hoạt động chèn, cập nhật và xóa ở cấp độ bản ghi trên bảng
  • Hive là một nền tảng kho dữ liệu trong khi HBase là cơ sở dữ liệu NoSQL
  • Hive chạy trên đỉnh của MapReduce, HBase chạy trên đỉnh của HDFS

14) Giải thích biến Hive là gì? Chúng ta sử dụng nó để làm gì?

Biến Hive được tạo trong môi trường Hive có thể được tham chiếu bởi các tập lệnh Hive. Biến này được sử dụng để truyền một số giá trị cho các truy vấn hive khi truy vấn bắt đầu thực thi.


15) Hãy cho biết chức năng ObjectInspector trong Hive là gì?

Chức năng ObjectInspector trong Hive được sử dụng để phân tích cấu trúc bên trong của các cột, hàng và các đối tượng phức tạp. Nó cho phép truy cập các trường bên trong các đối tượng.


16) Hãy cho biết (HS2) HiveServer2 là gì?

Đây là giao diện máy chủ thực hiện các chức năng sau.

  • Nó cho phép các máy khách từ xa thực hiện các truy vấn đối với Hive
  • Truy xuất kết quả của các truy vấn được đề cập

Một số tính năng nâng cao dựa trên Thrift RPC trong phiên bản mới nhất bao gồm

  • Đồng thời nhiều khách hàng
  • Xác thực

17) Trình xử lý truy vấn Hive có chức năng gì?

Bộ xử lý truy vấn Hive chuyển đổi đồ thị của các tác vụ MapReduce với khung thời gian thực hiện. Để các tác vụ có thể được thực hiện theo thứ tự phụ thuộc.


18) Hãy nêu các thành phần của bộ xử lý truy vấn Hive?

Các thành phần của bộ xử lý truy vấn Hive bao gồm:

  • Tạo kế hoạch logic
  • Tạo Kế hoạch Vật lý
  • Công cụ thực thi
  • Các nhà khai thác
  • UDF và UDAF
  • Trình tối ưu hóa
  • Trình phân tích cú pháp
  • Trình phân tích ngữ nghĩa
  • Kiểm tra loại

19) Phân vùng trong Hive là gì?

Hive sắp xếp các bảng thành các phân vùng.

  • Đây là một trong những cách chia bảng thành các phần khác nhau dựa trên khóa phân vùng.
  • Phân vùng hữu ích khi bảng có một hoặc nhiều khóa Phân vùng.
  • Khóa phân vùng là thành phần cơ bản để xác định cách dữ liệu được lưu trữ trong bảng.

20) Hãy cho biết khi nào nên chọn “Bảng nội bộ” và “Bảng ngoài” trong Hive?

Trong Hive bạn có thể chọn bảng bên trong,

  • Nếu dữ liệu xử lý có sẵn trong hệ thống tệp cục bộ
  • Nếu chúng tôi muốn Hive quản lý toàn bộ vòng đời của dữ liệu, bao gồm cả việc xóa

Bạn có thể chọn Bảng bên ngoài,

  • Nếu xử lý dữ liệu có sẵn trong HDFS
  • Hữu ích khi các tệp đang được sử dụng bên ngoài Hive

21) Có thể nêu tên view giống với tên của bảng Hive không?

Không. Tên của chế độ xem phải là duy nhất so với tất cả các bảng khác và như các chế độ xem có trong cùng một cơ sở dữ liệu.


22) Hãy cho biết chế độ xem trong Hive là gì?

Trong Hive, View tương tự như table. Chúng được tạo ra dựa trên các yêu cầu.

  • Chúng tôi có thể lưu bất kỳ dữ liệu tập kết quả nào dưới dạng chế độ xem trong Hive
  • Cách sử dụng tương tự như các chế độ xem được sử dụng trong SQL
  • Tất cả các loại hoạt động DML có thể được thực hiện trên một khung nhìn

23) Giải thích cách Hive Deserialize và serialize dữ liệu?

Thông thường, khi đọc/ghi dữ liệu, người dùng trước tiên sẽ giao tiếp với inputformat. Sau đó, nó kết nối với trình đọc Record để đọc/ghi record. Để tuần tự hóa dữ liệu, dữ liệu sẽ đi đến hàng. Ở đây, serde tùy chỉnh được giải tuần tự hóa sử dụng trình kiểm tra đối tượng để giải tuần tự hóa dữ liệu trong các trường.


24) Bucket trong Hive là gì?

  • Dữ liệu có trong các phân vùng có thể được chia nhỏ hơn thành các Bucket
  • Phép chia được thực hiện dựa trên giá trị Băm của các cột cụ thể được chọn trong bảng.

25) Trong Hive, làm thế nào để kích hoạt bucket?

Trong Hive, bạn có thể kích hoạt bucket bằng cách sử dụng lệnh sau:

set.hive.enforce.bucketing=true;

26) Trong Hive, bạn có thể ghi đè cấu hình Hadoop MapReduce trong Hive không?

Có, bạn có thể ghi đè cấu hình Hadoop MapReduce trong Hive.


27) Giải thích làm thế nào bạn có thể thay đổi kiểu dữ liệu cột trong Hive?

Bạn có thể thay đổi kiểu dữ liệu cột trong Hive bằng cách sử dụng lệnh,

ALTER TABLE table_name CHANGE column_name column_name new_datatype;

28) Hãy cho biết sự khác biệt giữa order by và sort by trong Hive?

  • SORT BY sẽ sắp xếp dữ liệu trong mỗi bộ giảm. Bạn có thể sử dụng bất kỳ số lượng bộ giảm nào cho thao tác SORT BY.
  • ORDER BY sẽ sắp xếp tất cả dữ liệu lại với nhau, dữ liệu này phải đi qua một bộ giảm tốc. Do đó, ORDER BY trong hive sử dụng một

29) Giải thích khi nào nên sử dụng explode trong Hive?

Các nhà phát triển Hadoop đôi khi thực hiện một mảng làm đầu vào và chuyển đổi thành một hàng bảng riêng biệt. Để chuyển đổi các kiểu dữ liệu phức tạp thành định dạng bảng mong muốn, Hive sử dụng explode.


30) Hãy nêu cách bạn có thể dừng việc truy vấn biểu mẫu phân vùng?

Bạn có thể dừng truy vấn biểu mẫu phân vùng bằng cách sử dụng mệnh đề ENABLE OFFLINE với câu lệnh ALTER TABLE.

Những câu hỏi phỏng vấn này cũng sẽ giúp ích trong bài thi (bài nói) của bạn. tham khảo của chúng tôi Hướng dẫn về Hive để có thêm lợi thế trong buổi phỏng vấn của bạn.

Chia sẻ

3 Comments

  1. hình đại diện Satyaranjan Singh nói:

    Nó rất hữu ích……..hữu ích……..hữu ích cho việc chuẩn bị phỏng vấn cũng như tự chuẩn bị.

  2. Cảm ơn bạn! Thật hữu ích!

    Tôi nghĩ có lẽ bạn có thể thêm một số câu hỏi về "độ lệch dữ liệu", vì tôi thường được yêu cầu trả lời những câu hỏi này khi tôi là người phỏng vấn.

    1. hình đại diện meenakshi nói:

      vui lòng thêm các câu hỏi phỏng vấn mà bạn đã hỏi

Bình luận

Chúng tôi sẽ không công khai email của bạn. Các ô đánh dấu * là bắt buộc *