คำถามและคำตอบสัมภาษณ์ไฮฟ์ 30 อันดับแรก (2025)
คำถามสัมภาษณ์ Hive สำหรับนักศึกษาใหม่และมีประสบการณ์
ต่อไปนี้เป็นคำถามและคำตอบในการสัมภาษณ์ของ Hive สำหรับนักศึกษาใหม่และผู้สมัครที่มีประสบการณ์เพื่อให้ได้งานในฝัน
ดาวน์โหลด PDF ฟรี: คำถามสัมภาษณ์ Hive
1) อธิบายว่าไฮฟ์คืออะไร?
Hive คือเครื่องมือ ETL และคลังข้อมูลที่พัฒนาบน Hadoop Distributed File System (HDFS) เป็นเฟรมเวิร์กคลังข้อมูลสำหรับการสืบค้นและวิเคราะห์ข้อมูลที่จัดเก็บไว้ใน HDFS Hive เป็นซอฟต์แวร์โอเพ่นซอร์สที่ช่วยให้โปรแกรมเมอร์วิเคราะห์ชุดข้อมูลขนาดใหญ่ได้ Hadoop.
2) ควรใช้ไฮฟ์เมื่อใด?
- ไฮฟ์มีประโยชน์เมื่อทำ คลังข้อมูล การใช้งาน
- เมื่อคุณต้องจัดการกับข้อมูลคงที่แทนที่จะเป็นข้อมูลไดนามิก
- เมื่อแอปพลิเคชันมีความหน่วงสูง (เวลาตอบสนองสูง)
- เมื่อชุดข้อมูลขนาดใหญ่ถูกเก็บรักษาไว้
- เมื่อเราใช้แบบสอบถามแทนการเขียนสคริปต์
3) พูดถึง Hive โหมดต่างๆ มีอะไรบ้าง?
Hive สามารถทำงานในสองโหมด ทั้งนี้ขึ้นอยู่กับขนาดของโหนดข้อมูลใน Hadoop โหมดเหล่านี้คือ
- โหมดท้องถิ่น
- โหมดลดแผนที่
4) พูดถึงเมื่อใดควรใช้โหมดลดแผนที่?
โหมดลดแผนที่จะใช้เมื่อ
- โดยจะดำเนินการกับชุดข้อมูลจำนวนมากและการสืบค้นจะดำเนินการในลักษณะคู่ขนาน
- Hadoop มีโหนดข้อมูลหลายโหนด และข้อมูลจะถูกกระจายไปยังโหนดต่างๆ ที่เราใช้ Hive ในโหมดนี้
- จำเป็นต้องประมวลผลชุดข้อมูลขนาดใหญ่ที่มีประสิทธิภาพดีขึ้น
5) พูดถึงองค์ประกอบสำคัญของ Hive Architecture หรือไม่
องค์ประกอบที่สำคัญของ Hive Architecture ได้แก่
- ส่วนติดต่อผู้ใช้
- ผู้รวบรวม
- เมต้าสโตร์
- คนขับรถ
- ดำเนินการเครื่องยนต์
6) พูดถึงตารางประเภทต่างๆ ที่มีอยู่ใน Hive มีอะไรบ้าง?
Hive มีตารางอยู่ 2 ประเภท
- ตารางที่ได้รับการจัดการ: ในตารางที่ได้รับการจัดการ ทั้งข้อมูลและสคีมาอยู่ภายใต้การควบคุมของ Hive
- โต๊ะภายนอก: ในตารางภายนอก มีเพียงสคีมาเท่านั้นที่อยู่ภายใต้การควบคุมของ Hive
7) อธิบายว่า Metastore ใน Hive คืออะไร?
Metastore เป็นพื้นที่เก็บข้อมูลกลางใน Hive ใช้สำหรับจัดเก็บข้อมูลสคีมาหรือข้อมูลเมตาในฐานข้อมูลภายนอก
8) กล่าวถึงสิ่งที่ไฮฟ์ประกอบด้วย?
รังประกอบด้วย 3 ส่วนหลัก คือ
- ลูกค้าไฮฟ์
- บริการไฮฟ์
- ไฮฟ์สตอเรจและคอมพิวเตอร์
9) กล่าวถึงฐานข้อมูลประเภทใดที่ Hive รองรับ?
สำหรับการจัดเก็บข้อมูลเมตาดาต้าผู้ใช้คนเดียว Hive ใช้ฐานข้อมูลดาร์บี้และสำหรับเมตาดาต้าผู้ใช้หลายรายหรือกรณีเมทาดาทาที่ใช้ร่วมกัน Hive ใช้ ข้อมูล MySQL.
10) กล่าวถึงคลาสการอ่านและเขียนเริ่มต้นของ Hive หรือไม่
คลาสการอ่านและเขียนเริ่มต้นของไฮฟ์คือ
- TextInputFormat/HiveIgnoreKeyTextOutputFormat
- SequenceFileInputFormat/SequenceFileOutputFormat
11) การจัดทำดัชนีใน Hive คืออะไร?
การทำดัชนีไฮฟ์เป็นเทคนิคการเพิ่มประสิทธิภาพคิวรีเพื่อปรับปรุงความเร็วในการค้นหาคิวรีในบางคอลัมน์ของตาราง
12) เหตุใด Hive จึงไม่เหมาะกับระบบ OLTP
ไฮฟ์ไม่เหมาะสำหรับระบบ OLTP เนื่องจากไม่มีฟังก์ชันการแทรกและอัปเดตในระดับแถว
13) พูดถึงความแตกต่างระหว่าง Hbase และ Hive คืออะไร?
ความแตกต่างระหว่าง Hbase และ Hive คือ
- Hive ช่วยให้ส่วนใหญ่ของ SQL แบบสอบถาม แต่ HBase ไม่อนุญาตการสืบค้น SQL
- Hive ไม่รองรับการดำเนินการแทรก อัปเดต และลบระดับบันทึกในตาราง
- Hive เป็นเฟรมเวิร์กคลังข้อมูลในขณะที่ HBase เป็นฐานข้อมูล NoSQL
- Hive ทำงานบน MapReduce ส่วน HBase ทำงานบน HDFS
14) อธิบายว่าตัวแปร Hive คืออะไร? เราใช้มันเพื่ออะไร?
ตัวแปร Hive ถูกสร้างขึ้นในสภาพแวดล้อม Hive ที่สามารถอ้างอิงได้โดยสคริปต์ Hive ใช้เพื่อส่งค่าบางค่าไปยังคิวรีไฮฟ์เมื่อคิวรีเริ่มดำเนินการ
15) พูดถึงฟังก์ชั่น ObjectInspector ใน Hive คืออะไร?
ฟังก์ชัน ObjectInspector ใน Hive ใช้เพื่อวิเคราะห์โครงสร้างภายในของคอลัมน์ แถว และวัตถุที่ซับซ้อน อนุญาตให้เข้าถึงฟิลด์ภายในภายในออบเจ็กต์
16) พูดถึงอะไร (HS2) HiveServer2?
เป็นอินเทอร์เฟซเซิร์ฟเวอร์ที่ทำหน้าที่ดังต่อไปนี้
- ช่วยให้ไคลเอนต์ระยะไกลสามารถดำเนินการค้นหากับ Hive
- รับผลลัพธ์ของการสืบค้นที่กล่าวถึง
คุณสมบัติขั้นสูงบางอย่างที่อิงจาก Thrift RPC ในเวอร์ชันล่าสุดประกอบด้วย
- การทำงานพร้อมกันหลายไคลเอนต์
- การยืนยันตัวตน
17) พูดถึงสิ่งที่ Hive query processor ทำหน้าที่อะไร?
ตัวประมวลผลแบบสอบถาม Hive แปลงกราฟของงาน MapReduce ด้วยกรอบเวลาดำเนินการ เพื่อให้สามารถดำเนินการงานตามลำดับการพึ่งพาได้
18) พูดถึงส่วนประกอบของตัวประมวลผลคิวรี Hive คืออะไร?
ส่วนประกอบของตัวประมวลผลแบบสอบถาม Hive ประกอบด้วย
- การสร้างแผนเชิงตรรกะ
- การสร้างแผนทางกายภาพ
- เครื่องมือดำเนินการ
- โอเปอร์เตอร์-ผู้ประกอบการ
- UDF และ UDAF
- เพิ่มประสิทธิภาพ
- โปรแกรมแยกวิเคราะห์
- เครื่องวิเคราะห์ความหมาย
- ประเภทการตรวจสอบ
19) พูดถึง Partitions in Hive คืออะไร?
Hive จัดระเบียบตารางเป็นพาร์ติชั่น
- เป็นหนึ่งในวิธีแบ่งตารางออกเป็นส่วนต่างๆ ตามคีย์พาร์ติชัน
- พาร์ติชั่นมีประโยชน์เมื่อตารางมีคีย์พาร์ติชั่นตั้งแต่หนึ่งคีย์ขึ้นไป
- คีย์พาร์ติชั่นเป็นองค์ประกอบพื้นฐานสำหรับกำหนดวิธีจัดเก็บข้อมูลในตาราง
20) พูดถึงเมื่อใดควรเลือก "Internal Table" และ "External Table" ใน Hive?
ใน Hive คุณสามารถเลือกตารางภายใน
- หากการประมวลผลข้อมูลที่มีอยู่ในระบบไฟล์ในเครื่อง
- หากเราต้องการให้ Hive จัดการวงจรชีวิตของข้อมูลทั้งหมดรวมถึงการลบข้อมูลด้วย
คุณสามารถเลือกตารางภายนอก
- หากประมวลผลข้อมูลที่มีอยู่ใน HDFS
- มีประโยชน์เมื่อมีการใช้ไฟล์ภายนอก Hive
21) พูดถึงว่าเราสามารถตั้งชื่อมุมมองเหมือนกับชื่อของตาราง Hive ได้หรือไม่?
ไม่ ชื่อของมุมมองจะต้องไม่ซ้ำกันเมื่อเปรียบเทียบกับตารางอื่นๆ ทั้งหมดและเป็นมุมมองที่แสดงในฐานข้อมูลเดียวกัน
22) พูดถึงมุมมองใน Hive คืออะไร?
ใน Hive มุมมองจะคล้ายกับตาราง สร้างขึ้นตามความต้องการ
- เราสามารถบันทึกข้อมูลชุดผลลัพธ์เป็นมุมมองใน Hive ได้
- การใช้งานคล้ายกับมุมมองที่ใช้ใน SQL
- การดำเนินการ DML ทุกประเภทสามารถดำเนินการบนมุมมองได้
23) อธิบายว่า Hive Deserialize และทำให้ข้อมูลเป็นอนุกรมได้อย่างไร
โดยปกติในขณะที่อ่าน/เขียนข้อมูล ผู้ใช้จะสื่อสารกับรูปแบบอินพุตก่อน จากนั้นจะเชื่อมต่อกับเครื่องอ่านบันทึกเพื่ออ่าน/เขียนบันทึก หากต้องการซีเรียลไลซ์ข้อมูล ข้อมูลจะไปที่แถว ที่นี่ serde ที่กำหนดเองแบบดีซีเรียลไลซ์ใช้ตัวตรวจสอบวัตถุเพื่อดีซีเรียลไลซ์ข้อมูลในฟิลด์
24) Buckets in Hive คืออะไร?
- ข้อมูลที่อยู่ในพาร์ติชันสามารถแบ่งออกเป็นกลุ่มเพิ่มเติมได้
- การแบ่งจะดำเนินการตามแฮชของคอลัมน์เฉพาะที่เลือกไว้ในตาราง
25) ใน Hive คุณจะเปิดใช้งานที่เก็บข้อมูลได้อย่างไร?
ใน Hive คุณสามารถเปิดใช้งานที่เก็บข้อมูลได้โดยใช้คำสั่งต่อไปนี้
set.hive.enforce.bucketing=true;
26) ใน Hive คุณสามารถเขียนทับการกำหนดค่า Hadoop MapReduce ใน Hive ได้หรือไม่
ได้ คุณสามารถเขียนทับการกำหนดค่า Hadoop MapReduce ใน Hive ได้
27) อธิบายว่าคุณจะเปลี่ยนประเภทข้อมูลคอลัมน์ใน Hive ได้อย่างไร
คุณสามารถเปลี่ยนชนิดข้อมูลคอลัมน์ใน Hive ได้โดยใช้คำสั่ง
ALTER TABLE table_name CHANGE column_name column_name new_datatype;
28) พูดถึงความแตกต่างระหว่าง order by และ sort by ใน Hive คืออะไร?
- SORT BY จะเรียงลำดับข้อมูลภายในตัวลดแต่ละตัว คุณสามารถใช้ตัวลดจำนวนเท่าใดก็ได้สำหรับการดำเนินการ SORT BY
- ORDER BY จะเรียงลำดับข้อมูลทั้งหมดเข้าด้วยกัน ซึ่งจะต้องผ่านตัวลดอันเดียว ดังนั้น ORDER BY ในกลุ่มจึงใช้ single
29) อธิบายว่าเมื่อใดควรใช้ explode ใน Hive?
บางครั้งนักพัฒนา Hadoop ก็ใช้ แถว เป็นอินพุตและแปลงเป็นแถวตารางแยกกัน หากต้องการแปลงประเภทข้อมูลที่ซับซ้อนให้เป็นรูปแบบตารางที่ต้องการ Hive use จะระเบิด
30) พูดถึงว่าคุณจะหยุดการสอบถามแบบฟอร์มพาร์ติชันได้อย่างไร?
คุณสามารถหยุดการสอบถามฟอร์มพาร์ติชันได้โดยใช้ส่วนคำสั่ง ENABLE OFFLINE พร้อมด้วยคำสั่ง ALTER TABLE
คำถามสัมภาษณ์เหล่านี้จะช่วยในวีว่าของคุณ (วาจา) อ้างอิงของเรา บทช่วยสอนไฮฟ์ เพื่อเพิ่มความได้เปรียบในการสัมภาษณ์ของคุณ
มีประโยชน์มาก……..มีประโยชน์……..มีประโยชน์ทั้งในการเตรียมตัวสัมภาษณ์และการเตรียมตนเอง
ขอบคุณ! มันมีประโยชน์มาก!
ฉันคิดว่าบางทีคุณสามารถเพิ่มคำถามเกี่ยวกับ "การบิดเบือนข้อมูล" ได้ เนื่องจากฉันมักจะถูกขอให้ตอบคำถามเหล่านี้เมื่อฉันเป็นผู้สัมภาษณ์
โปรดเพิ่มคำถามสัมภาษณ์ที่คุณถาม