คำถามและคำตอบสัมภาษณ์ Apache Spark 52 อันดับแรก (2025)

จุดประกายคำถามสัมภาษณ์สำหรับนักศึกษาใหม่และผู้มีประสบการณ์

ต่อไปนี้เป็นคำถามและคำตอบในการสัมภาษณ์ Apache Spark สำหรับนักศึกษาใหม่รวมถึงผู้สมัคร Data Science ที่มีประสบการณ์เพื่อรับงานในฝัน


1) อาปาเช่ สปาร์ค คืออะไร

Apache Spark เป็นเฟรมเวิร์กการประมวลผลข้อมูลที่ใช้งานง่ายและยืดหยุ่น Spark สามารถปัดเศษได้ Hadoop, แบบสแตนด์อโลน หรือในระบบคลาวด์ สามารถประเมินแหล่งข้อมูลที่หลากหลาย ซึ่งรวมถึง HDFS, Cassandra และอื่นๆ

ดาวน์โหลดไฟล์ PDF ฟรี: คำถามและคำตอบสัมภาษณ์ Apache Spark


2) อธิบาย Dsstream โดยอ้างอิงถึง Apache Spark

Dstream เป็นลำดับของฐานข้อมูลแบบกระจายที่ยืดหยุ่นซึ่งเป็นตัวแทนของกระแสข้อมูล คุณสามารถสร้าง Dstream จากแหล่งต่างๆ เช่น HDFS, Apache Flume, Apache Kafkaฯลฯ


3) ตั้งชื่อแหล่งข้อมูลสามแห่งที่มีอยู่ใน SparkSQL

มีแหล่งข้อมูลใน SparkSQL คือ:

  • JSON ชุดข้อมูล
  • รัง ตาราง
  • ไฟล์ปาร์เก้

4) ตั้งชื่อ daemons ภายในบางตัวที่ใช้ใน spark หรือไม่?

ดีมอนสำคัญที่ใช้ใน Spark ได้แก่ Blockmanager, Memostore, DAGscheduler, Driver, Worker, Executor, Tasks ฯลฯ


5) กำหนดคำว่า 'เวกเตอร์กระจัดกระจาย'

Sparse vector คือเวกเตอร์ที่มีอาร์เรย์คู่ขนานสองตัว ตัวแรกสำหรับดัชนี และอีกตัวหนึ่งสำหรับค่า ใช้สำหรับจัดเก็บเอนทิตีที่ไม่เป็นศูนย์เพื่อประหยัดพื้นที่

คำถามสัมภาษณ์ Spark
คำถามสัมภาษณ์ Spark

6) ตั้งชื่อภาษาที่ Apache Spark รองรับสำหรับการพัฒนาแอปพลิเคชันข้อมูลขนาดใหญ่

ภาษาที่สำคัญในการพัฒนาแอพพลิเคชั่น Big Data ได้แก่

  • ชวา
  • หลาม
  • R
  • Clojure
  • สกาล่า

7) การสร้าง Data frame มีวิธีใดบ้าง?

ใน Apache Spark สามารถสร้าง Data frame ได้โดยใช้ Tables ใน Hive และไฟล์ข้อมูลที่มีโครงสร้าง


8) อธิบาย SchemaRDD

RDD ซึ่งประกอบด้วยออบเจ็กต์แถวที่มีข้อมูลสคีมาเกี่ยวกับประเภทของข้อมูลในแต่ละคอลัมน์เรียกว่า SchemaRDD


9) ตัวสะสมคืออะไร?

ตัวสะสมเป็นตัวแปรแบบเขียนอย่างเดียว พวกเขาจะเตรียมใช้งานครั้งเดียวและส่งไปยังคนงาน ผู้ปฏิบัติงานเหล่านี้จะอัปเดตตามตรรกะที่เขียนไว้ ซึ่งจะส่งกลับไปยังไดรเวอร์


10) องค์ประกอบของ Spark Ecosystem มีอะไรบ้าง?

องค์ประกอบที่สำคัญของ Spark คือ:

  • แกนประกายไฟ: มันเป็นกลไกหลักสำหรับการประมวลผลข้อมูลแบบขนานและแบบกระจายขนาดใหญ่
  • สปาร์คสตรีมมิ่ง: ส่วนประกอบนี้ใช้สำหรับการสตรีมข้อมูลแบบเรียลไทม์
  • จุดประกาย SQL: ผสานรวมการประมวลผลเชิงสัมพันธ์โดยใช้ API การเขียนโปรแกรมเชิงฟังก์ชันของ Spark
  • กราฟเอ็กซ์: ช่วยให้กราฟและการคำนวณกราฟขนาน
  • MLlib: ช่วยให้คุณดำเนินการเรียนรู้ของเครื่องใน Apache Spark

11) บอกคุณสมบัติสามประการของการใช้ Apache Spark

คุณสมบัติที่สำคัญที่สุดสามประการของการใช้ Apache Spark คือ:

  1. รองรับการวิเคราะห์ที่ซับซ้อน
  2. ช่วยให้คุณผสานรวมกับ Hadoop และข้อมูล Hadoop ที่มีอยู่
  3. ช่วยให้คุณสามารถเรียกใช้แอปพลิเคชันในคลัสเตอร์ Hadoop ได้เร็วขึ้นสูงสุด 100 เท่าในหน่วยความจำ และเร็วขึ้น XNUMX เท่าบนดิสก์

12) อธิบายระดับเริ่มต้นของความขนานใน Apache Spark

หากผู้ใช้ไม่สามารถระบุได้ จำนวนพาร์ติชันจะถือเป็นระดับเริ่มต้นของความขนานใน Apache Spark


13) ตั้งชื่อบริษัทสามแห่งที่ใช้บริการ Spark Streaming

บริษัทที่มีชื่อเสียงสามแห่งที่ใช้บริการ Spark Streaming ได้แก่:

  • Uber
  • Netflix
  • Pinterest

14) Spark SQL คืออะไร

Spark SQL เป็นโมดูลสำหรับการประมวลผลข้อมูลที่มีโครงสร้างซึ่งเราใช้ประโยชน์จากการสืบค้น SQL ที่ทำงานบนฐานข้อมูลนั้น


15) อธิบายไฟล์ปาร์เก้

Paraquet เป็นไฟล์รูปแบบเรียงเป็นแนวที่รองรับโดยระบบประมวลผลข้อมูลอื่นๆ Spark SQL ช่วยให้คุณสามารถดำเนินการทั้งการอ่านและเขียนด้วยไฟล์ Parquet


16) อธิบาย Spark Driver?

Spark Driver เป็นโปรแกรมที่ทำงานบนโหนดหลักของเครื่องและประกาศการแปลงและการดำเนินการกับข้อมูล RDD


17) คุณจะจัดเก็บข้อมูลในรูปแบบ Spark ได้อย่างไร?

Spark เป็นเครื่องมือประมวลผลที่ไม่มีเครื่องมือจัดเก็บข้อมูล สามารถดึงข้อมูลจากเครื่องมือจัดเก็บข้อมูลอื่นเช่น HDFS, S3


18) อธิบายการใช้ File system API ใน Apache Spark

ระบบแฟ้ม API ช่วยให้คุณอ่านข้อมูลจากอุปกรณ์จัดเก็บข้อมูลต่างๆ เช่น HDFS, S3 หรือ Fileyste ในเครื่อง


19) Spark Engine มีหน้าที่อะไร

Spark Engine มีประโยชน์ในการกำหนดเวลา การกระจาย และการตรวจสอบแอปพลิเคชันข้อมูลทั่วทั้งคลัสเตอร์


20) ผู้ใช้ sparkContext คืออะไร?

SparkContent เป็นจุดเริ่มต้นในการจุดประกาย SparkContext ช่วยให้คุณสร้าง RDD ซึ่งจัดเตรียมวิธีการปั่นข้อมูลที่หลากหลาย


21) คุณจะใช้ Machine Learning ใน Spark ได้อย่างไร?

MLif เป็นไลบรารีการเรียนรู้ของเครื่องอเนกประสงค์ที่ Spark มอบให้


22) คุณสามารถประมวลผลแบบเรียลไทม์ด้วย Spark SQL ได้หรือไม่?

การประมวลผลข้อมูลแบบเรียลไทม์ไม่สามารถทำได้โดยตรง อย่างไรก็ตาม สามารถทำได้โดยการลงทะเบียน RDD ที่มีอยู่เป็นตาราง SQL และทริกเกอร์การสืบค้น SQL ตามลำดับความสำคัญ


23) อะไรคือความแตกต่างที่สำคัญระหว่าง Apache และ Hadoop

พารามิเตอร์ Apache Spark Hadoop
ความเร็ว เร็วกว่า Hadoop 100 เท่า มีความเร็วปานกลาง
กระบวนการผลิต ฟังก์ชั่นการประมวลผลแบทช์แบบเรียลไทม์ มันมีการประมวลผลเป็นชุดเท่านั้น
โค้งการเรียนรู้ สะดวกสบาย ยาก
การติดต่อสื่อสาร มีโหมดโต้ตอบ นอกเหนือจาก Pig and Hive แล้ว ยังไม่มีวิธีโต้ตอบ

24) คุณสามารถรัน Apache Spark บน Apache Mesos ได้หรือไม่?

ได้ คุณสามารถรัน Apache Spark บนคลัสเตอร์ฮาร์ดแวร์ที่จัดการโดย Mesos ได้


25) อธิบายพาร์ติชัน

พาร์ติชันคือการแบ่งข้อมูลที่เล็กลงและเป็นตรรกะ เป็นวิธีการในการรับหน่วยลอจิคัลของข้อมูลเพื่อเร่งกระบวนการประมวลผล


26) กำหนดคำว่า 'Lazy Evolution' โดยอ้างอิงถึง Apache Spark

Apache Spark ชะลอการประเมินจนกว่าจะมีความจำเป็น สำหรับการแปลง Spark จะเพิ่มลงใน DAG ของการคำนวณ และเฉพาะเมื่อได้รับคำขอข้อมูลบางส่วนเท่านั้น


27) อธิบายการใช้ตัวแปรออกอากาศ

การใช้งานตัวแปรการออกอากาศที่พบบ่อยที่สุดคือ:

  • ตัวแปรการออกอากาศช่วยให้โปรแกรมเมอร์เก็บแคชตัวแปรแบบอ่านอย่างเดียวไว้ในแต่ละเครื่อง แทนที่จะจัดส่งสำเนาพร้อมกับงานต่างๆ
  • คุณยังสามารถใช้สำเนาเหล่านี้เพื่อให้ทุกโหนดมีสำเนาของชุดข้อมูลอินพุตขนาดใหญ่ได้อย่างมีประสิทธิภาพ
  • อัลกอริธึมการออกอากาศยังช่วยคุณลดต้นทุนการสื่อสารอีกด้วย

28) คุณจะใช้ Akka กับ Spark ได้อย่างไร?

Spark ใช้ Akka ใช้ในการกำหนดเวลา นอกจากนี้ยังใช้ Akka เพื่อส่งข้อความระหว่างคนงานและเจ้านาย


29) ซึ่งพื้นฐาน โครงสร้างข้อมูล ของสปาร์ค

Data frame เป็นพื้นฐานคือโครงสร้างข้อมูลพื้นฐานของ Spark


30) คุณสามารถใช้ Spark สำหรับกระบวนการ ETL ได้หรือไม่?

ใช่ คุณสามารถใช้ spark สำหรับกระบวนการ ETL ได้


31) การแปลงแผนที่มีประโยชน์อย่างไร?

การแปลงแผนที่บน RDD จะสร้าง RDD อื่นโดยการแปลแต่ละองค์ประกอบ ช่วยให้คุณแปลทุกองค์ประกอบโดยดำเนินการฟังก์ชันที่ผู้ใช้จัดเตรียมไว้


32) การใช้ Spark มีข้อเสียอะไรบ้าง?

ต่อไปนี้เป็นข้อเสียบางประการของการใช้ Spark:

  • Spark ใช้ข้อมูลจำนวนมากเมื่อเทียบกับ Hadoop
  • คุณไม่สามารถเรียกใช้ทุกอย่างบนโหนดเดียวได้ เนื่องจากงานต้องไม่น่าเชื่อถือบนหลายคลัสเตอร์
  • นักพัฒนาต้องการการดูแลเป็นพิเศษในขณะที่ใช้งานแอปพลิเคชันใน Spark
  • การสตรีม Spark ไม่รองรับเกณฑ์หน้าต่างตามบันทึก

33) Apache Spark ใช้งานทั่วไปอย่างไร

  • Apache Spark ใช้สำหรับ:
  • การเรียนรู้ของเครื่องแบบโต้ตอบ
  • การประมวลผลสตรีม
  • การวิเคราะห์และการประมวลผลข้อมูล
  • การประมวลผลข้อมูลเซ็นเซอร์

34) ระบุความแตกต่างระหว่างฟังก์ชันคงอยู่() และแคช()

ฟังก์ชัน Persist() อนุญาตให้ผู้ใช้ระบุระดับการจัดเก็บข้อมูลในขณะที่ cache() ใช้ระดับการจัดเก็บข้อมูลเริ่มต้น


35) ตั้งชื่อ Spark Library ซึ่งอนุญาตให้แชร์ไฟล์ที่เชื่อถือได้ด้วยความเร็วหน่วยความจำในเฟรมเวิร์กคลัสเตอร์ต่างๆ

Tachyon เป็นไลบรารีประกายไฟที่ช่วยให้สามารถแชร์ไฟล์ที่เชื่อถือได้ด้วยความเร็วหน่วยความจำบนเฟรมเวิร์กคลัสเตอร์ต่างๆ


36) Apache Spark เหมาะกับเทคนิค Machine Learning ประเภทใด

Apache Spark เหมาะสำหรับอัลกอริธึมการเรียนรู้ของเครื่องอย่างง่าย เช่น การจัดกลุ่ม การถดถอย และการจัดหมวดหมู่


37) คุณจะลบองค์ประกอบที่มีสถานะวิกฤติใน Rdd อื่น ๆ ที่เป็น Apache spark ได้อย่างไร

ในการลบองค์ประกอบที่มีคีย์อยู่ใน rdd อื่น ๆ คุณต้องใช้ฟังก์ชัน substractkey()


38) จุดตรวจในสปาร์คมีประโยชน์อย่างไร?

จุดตรวจอนุญาตให้โปรแกรมทำงานตลอดเวลา ยิ่งไปกว่านั้น ยังช่วยให้มีความยืดหยุ่นต่อความล้มเหลวโดยไม่คำนึงถึงตรรกะของแอปพลิเคชัน


39) อธิบายกราฟเชื้อสาย

คอมพิวเตอร์ข้อมูลกราฟ Lineage แต่ละ RDD ตามความต้องการ ดังนั้นเมื่อใดก็ตามที่ส่วนหนึ่งของ RDD แบบถาวรหายไป ในสถานการณ์นั้น คุณสามารถกู้คืนข้อมูลนี้ได้โดยใช้ข้อมูลกราฟเส้นสาย


40) Spark รองรับรูปแบบไฟล์ใดบ้าง?

Spark รองรับรูปแบบไฟล์ json, tsv, snappy, orc, rc ฯลฯ


41) การกระทำคืออะไร?

การดำเนินการช่วยให้คุณนำข้อมูลจาก RDD กลับมายังเครื่องภายในเครื่อง การดำเนินการเป็นผลมาจากการเปลี่ยนแปลงที่สร้างขึ้นก่อนหน้านี้ทั้งหมด


42) เส้นด้ายคืออะไร?

Yarn เป็นหนึ่งในคุณสมบัติที่สำคัญที่สุดของ Apache Spark การรันสปาร์คบน Yarn ทำให้เกิดการกระจายประกายไฟแบบไบนารีเนื่องจากมันถูกสร้างขึ้นบนการรองรับ Yarn


43) อธิบาย Spark Executor

ผู้ดำเนินการคือกระบวนการ Spark ซึ่งรันการคำนวณและจัดเก็บข้อมูลบนโหนดผู้ปฏิบัติงาน งานขั้นสุดท้ายโดย SparkContent จะถูกโอนไปยังผู้ดำเนินการเพื่อดำเนินการ


44) จำเป็นต้องติดตั้ง Spark บนโหนดทั้งหมดในขณะที่รันแอปพลิเคชัน Spark บน Yarn หรือไม่

ไม่ คุณไม่จำเป็นต้องติดตั้ง spark บนโหนดทั้งหมด เนื่องจาก spark ทำงานบน Yarn


45) โหนดผู้ปฏิบัติงานใน Apache Spark คืออะไร

โหนดผู้ปฏิบัติงานคือโหนดใดๆ ที่สามารถเรียกใช้โค้ดแอปพลิเคชันในคลัสเตอร์ได้


46) คุณจะเปิดตัวงาน Spark ภายใน Hadoop MapReduce ได้อย่างไร

Spark ใน MapReduce ช่วยให้ผู้ใช้สามารถรันงาน Spark ทุกประเภทภายใน MapReduce ได้โดยไม่จำเป็นต้องได้รับสิทธิ์ผู้ดูแลระบบของแอปพลิเคชันนั้น


47) อธิบายกระบวนการเพื่อทริกเกอร์การล้างข้อมูลอัตโนมัติใน Spark เพื่อจัดการข้อมูลเมตาที่สะสม

คุณสามารถทริกเกอร์การล้างข้อมูลอัตโนมัติได้โดยดูพารามิเตอร์ 'spark.cleaner.ttf หรือโดยแยกงานที่ใช้เวลานานออกเป็นชุดต่างๆ และเขียนผลลัพธ์ระดับกลางลงในดิสก์


48) อธิบายการใช้ Blinkdb

BlinkDB เป็นเครื่องมือกลไกสืบค้นซึ่งช่วยให้คุณสามารถดำเนินการสืบค้น SQL กับข้อมูลปริมาณมหาศาลและแสดงผลผลลัพธ์การสืบค้นในแถบข้อผิดพลาดที่สำคัญ


49) Hoe Spark จัดการการตรวจสอบและการบันทึกในโหมดสแตนด์อโลนหรือไม่

ใช่ Spark สามารถจัดการการตรวจสอบและการบันทึกในโหมดสแตนด์อโลนได้เนื่องจากมีอินเทอร์เฟซผู้ใช้บนเว็บ


50) คุณจะระบุได้อย่างไรว่าการดำเนินการที่กำหนดเป็นการเปลี่ยนแปลงหรือการดำเนินการ?

คุณสามารถระบุการดำเนินการตามประเภทการคืนสินค้า หากประเภทการส่งคืนไม่ใช่ RDD แสดงว่าการดำเนินการนั้นเป็นการดำเนินการ อย่างไรก็ตาม หากประเภทการส่งคืนเหมือนกับ RDD การดำเนินการจะเป็นการแปลง


51) คุณสามารถใช้ Apache Spark เพื่อวิเคราะห์และเข้าถึงข้อมูลที่จัดเก็บไว้ในฐานข้อมูล Cassandra ได้หรือไม่

ได้ คุณสามารถใช้ Spark Cassandra Connector ซึ่งช่วยให้คุณเข้าถึงและวิเคราะห์ข้อมูลที่จัดเก็บไว้ในฐานข้อมูล Cassandra ได้


52) ระบุความแตกต่างระหว่าง Spark SQL และ Hql

SparkSQL เป็นองค์ประกอบสำคัญของเอ็นจิ้น Spark Core รองรับภาษา SQL และ Hive Query โดยไม่ต้องเปลี่ยนไวยากรณ์

คำถามสัมภาษณ์เหล่านี้จะช่วยในวีว่าของคุณ (วาจา)

Share

เขียนความเห็น

ที่อยู่อีเมลของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมาย *