50 Pertanyaan dan Jawaban Wawancara Apache Spark Teratas (2025)

Percikan Pertanyaan Wawancara untuk Mahasiswa Baru dan Berpengalaman

Berikut adalah pertanyaan dan jawaban wawancara Apache Spark untuk kandidat Ilmu Data yang baru dan berpengalaman untuk mendapatkan pekerjaan impian mereka.


1) Apa itu Apache Spark?

Apache Spark adalah kerangka pemrosesan data yang mudah digunakan dan fleksibel. Percikan bisa terus menyala Hadoop, mandiri, atau di cloud. Ia mampu menilai beragam sumber data, termasuk HDFS, Cassandra, dan lainnya.

Unduh PDF Gratis: Pertanyaan dan Jawaban Wawancara Apache Spark


2) Jelaskan Dsstream dengan mengacu pada Apache Spark

Dstream adalah rangkaian database terdistribusi tangguh yang mewakili aliran data. Anda dapat membuat Dstream dari berbagai sumber seperti HDFS, Apache Flume, Apache Kafka, Dll


3) Sebutkan tiga sumber data yang tersedia di SparkSQL

Ada sumber data yang tersedia di SparkSQL adalah:


4) Sebutkan beberapa daemon internal yang digunakan di spark?

Daemon penting yang digunakan dalam spark adalah Blockmanager, Memestore, DAGscheduler, Driver, Worker, Executor, Tasks, dll.


5) Definisikan istilah 'Vektor Jarang'.

Vektor renggang adalah vektor yang memiliki dua larik paralel, satu untuk indeks, satu lagi untuk nilai, digunakan untuk menyimpan entitas bukan nol untuk menghemat ruang.

Pertanyaan Wawancara Spark
Pertanyaan Wawancara Spark

6) Sebutkan bahasa yang didukung oleh Apache Spark untuk mengembangkan aplikasi data besar

Penggunaan bahasa yang penting untuk mengembangkan aplikasi big data adalah:

  • Jawa
  • Ular sanca
  • R
  • Clojure
  • Scala

7) Apa metode untuk membuat bingkai Data?

Di Apache Spark, bingkai Data dapat dibuat menggunakan Tabel di Hive dan file data Terstruktur.


8) Jelaskan SkemaRDD

RDD yang terdiri dari objek baris dengan informasi skema tentang tipe data di setiap kolom disebut SchemaRDD.


9) Apa itu akumulator?

Akumulator adalah variabel tulis saja. Mereka diinisialisasi satu kali dan dikirim ke pekerja. Para pekerja ini akan memperbarui berdasarkan logika yang ditulis, yang akan dikirim kembali ke driver.


10) Apa saja komponen Ekosistem Spark?

Komponen penting dari Spark adalah:

  • Percikan Inti: Ini adalah mesin dasar untuk pemrosesan data paralel dan terdistribusi berskala besar
  • Percikan Streaming: Komponen ini digunakan untuk streaming data real-time.
  • percikan SQL: Mengintegrasikan pemrosesan relasional dengan menggunakan API pemrograman fungsional Spark
  • GrafikX: Memungkinkan grafik dan perhitungan grafik-paralel
  • MLlib: Memungkinkan Anda melakukan pembelajaran mesin di Apache Spark

11) Sebutkan tiga fitur penggunaan Apache Spark

Tiga fitur terpenting dalam menggunakan Apache Spark adalah:

  1. Dukungan untuk Analisis Canggih
  2. Membantu Anda Mengintegrasikan dengan Hadoop dan Data Hadoop yang Ada
  3. Ini memungkinkan Anda menjalankan aplikasi di cluster Hadoop, hingga 100 kali lebih cepat di memori, dan sepuluh kali lebih cepat di disk.

12) Jelaskan tingkat paralelisme default di Apache Spark

Jika pengguna tidak dapat menentukannya, maka jumlah partisi dianggap sebagai tingkat paralelisme default di Apache Spark.


13) Sebutkan tiga perusahaan yang menggunakan layanan Spark Streaming

Tiga perusahaan terkenal yang menggunakan layanan Spark Streaming adalah:

  • uber
  • Netflix
  • pinterest

14) Apa itu Spark SQL?

Spark SQL adalah modul untuk pemrosesan data terstruktur di mana kita memanfaatkan kueri SQL yang berjalan pada database tersebut.


15) Jelaskan file Parket

Paraquet adalah file format kolom yang didukung oleh banyak sistem pemrosesan data lainnya. Spark SQL memungkinkan Anda melakukan operasi baca dan tulis dengan file Parket.


16) Jelaskan Spark Driver?

Spark Driver adalah program yang berjalan pada node master mesin dan mendeklarasikan transformasi dan tindakan pada RDD data.


17) Bagaimana cara menyimpan data di spark?

Spark adalah mesin pengolah yang tidak memiliki mesin penyimpanan apa pun. Itu dapat mengambil data dari mesin penyimpanan lain seperti HDFS, S3.


18) Jelaskan penggunaan API sistem file di Apache Spark

File system API memungkinkan Anda membaca data dari berbagai perangkat penyimpanan seperti HDFS, S3 atau Fileyste lokal.


19) Apa tugas Spark Engine

Spark Engine berguna untuk menjadwalkan, mendistribusikan, dan memantau aplikasi data di seluruh cluster.


20) Apa pengguna sparkContext?

SparkContent adalah titik masuk untuk memicu. SparkContext memungkinkan Anda membuat RDD yang menyediakan berbagai cara untuk mengaduk data.


21) Bagaimana Anda bisa menerapkan pembelajaran mesin di Spark?

MLif adalah perpustakaan pembelajaran mesin serbaguna yang diberikan oleh Spark.


22) Bisakah Anda melakukan pemrosesan waktu nyata dengan Spark SQL?

Pemrosesan data real-time tidak dapat dilakukan secara langsung. Namun, hal ini dimungkinkan dengan mendaftarkan RDD yang ada sebagai tabel SQL dan memicu kueri SQL berdasarkan prioritas.


23) Apa perbedaan penting antara Apache dan Hadoop

Parameter Apache Spark Hadoop
Kecepatan 100 kali lebih cepat dibandingkan dengan Hadoop. Ia memiliki kecepatan sedang.
Pengolahan Fungsionalitas pemrosesan batch waktu nyata. Ini hanya menawarkan pemrosesan batch.
Kurva belajar Mudah Sulit
Interaktivitas Ini memiliki mode interaktif Selain Pig and Hive, ini belum memiliki cara yang interaktif.

24) dapatkah Anda menjalankan Apache Spark di Apache Mesos?

Ya, Anda dapat menjalankan Apache Spark pada kluster perangkat keras yang dikelola oleh Mesos.


25) Jelaskan partisi

Partisi adalah pembagian data yang lebih kecil dan logis. Ini adalah metode untuk memperoleh unit logis data untuk mempercepat proses pemrosesan.


26) Definisikan istilah 'Lazy Evolution' dengan mengacu pada Apache Spark

Apache Spark menunda evaluasinya hingga diperlukan. Untuk transformasi, Spark menambahkannya ke DAG komputasi dan hanya ketika turunan meminta beberapa data.


27) Jelaskan penggunaan variabel siaran

Penggunaan variabel siaran yang paling umum adalah:

  • Variabel siaran membantu pemrogram menyimpan variabel read-only dalam cache di setiap mesin alih-alih mengirimkan salinannya bersama tugas.
  • Anda juga dapat menggunakannya untuk memberikan setiap node salinan kumpulan data input besar dengan cara yang efisien.
  • Algoritme siaran juga membantu Anda mengurangi biaya komunikasi

28) Bagaimana cara menggunakan Akka dengan Spark?

Spark menggunakan penggunaan Akka untuk penjadwalan. Ia juga menggunakan Akka untuk mengirim pesan antara pekerja dan majikan.


29) Yang mana yang mendasar struktur data dari percikan

Kerangka data yang mendasar adalah struktur data dasar Spark.


30) Bisakah Anda menggunakan Spark untuk proses ETL?

Ya, Anda dapat menggunakan spark untuk proses ETL.


31) Apa gunanya transformasi peta?

Transformasi peta pada suatu RDD menghasilkan RDD lain dengan menerjemahkan setiap elemen. Ini membantu Anda menerjemahkan setiap elemen dengan menjalankan fungsi yang disediakan oleh pengguna.


32) Apa kerugian menggunakan Spark?

Berikut ini adalah beberapa kelemahan menggunakan Spark:

  • Spark mengonsumsi data dalam jumlah besar dibandingkan dengan Hadoop.
  • Anda tidak dapat menjalankan semuanya dalam satu node karena pekerjaan harus dipercaya pada beberapa cluster.
  • Pengembang membutuhkan kehati-hatian ekstra saat menjalankan aplikasi mereka di Spark.
  • Spark streaming tidak menyediakan dukungan untuk kriteria jendela berbasis rekaman.

33) Apa kegunaan umum Apache Spark?

  • Apache Spark digunakan untuk:
  • Pembelajaran mesin interaktif
  • Pemrosesan arus
  • Analisis dan pemrosesan data
  • Pemrosesan data sensor

34) Sebutkan perbedaan antara fungsi persist() dan cache().

Fungsi Persist() memungkinkan pengguna untuk menentukan tingkat penyimpanan sedangkan cache() menggunakan tingkat penyimpanan default.


35) Beri nama Spark Library yang memungkinkan berbagi file yang andal dengan kecepatan memori di berbagai kerangka cluster yang berbeda.

Tachyon adalah perpustakaan percikan yang memungkinkan berbagi file yang andal dengan kecepatan memori di berbagai kerangka cluster.


36) Apache Spark cocok untuk jenis teknik pembelajaran mesin yang mana?

Apache Spark sangat ideal untuk algoritma pembelajaran mesin sederhana seperti pengelompokan, regresi, dan klasifikasi.


37) Bagaimana Anda dapat menghapus elemen dengan hadiah kritis di Rdd lainnya adalah Apache Spark?

Untuk menghapus elemen dengan kunci yang ada di rdd lain, Anda perlu menggunakan fungsi substractkey().


38) Apa gunanya pos pemeriksaan di percikan?

Pos pemeriksaan memungkinkan program berjalan sepanjang waktu. Selain itu, hal ini membantu membuatnya tahan terhadap kegagalan terlepas dari logika aplikasi.


39) Menjelaskan grafik garis keturunan

Komputer informasi grafik silsilah setiap RDD sesuai permintaan. Oleh karena itu, setiap kali bagian dari RDD persisten hilang. Dalam situasi tersebut, Anda dapat memulihkan data ini menggunakan informasi grafik garis keturunan.


40) Format file apa yang didukung oleh spark?

Spark mendukung format file json, tsv, snappy, orc, rc, dll.


41) Apa itu Tindakan?

Tindakan membantu Anda mengembalikan data dari RDD ke mesin lokal. Eksekusinya adalah hasil dari semua transformasi yang dibuat sebelumnya.


42) Apa itu Benang?

Benang adalah salah satu fitur terpenting dari Apache Spark. Menjalankan percikan di Yarn membuat distribusi percikan biner karena dibangun di atas dukungan Yarn.


43) Jelaskan Pelaksana Spark

Eksekutor adalah proses Spark yang menjalankan komputasi dan menyimpan data pada node pekerja. Tugas akhir oleh SparkContent ditransfer ke pelaksana untuk dieksekusi.


44) apakah perlu menginstal Spark di semua node saat menjalankan aplikasi Spark di Yarn?

Tidak, Anda tidak perlu memasang percikan di semua node karena percikan berjalan di atas Benang.


45) Apa yang dimaksud dengan simpul pekerja di Apache Spark?

Node pekerja adalah node mana pun yang dapat menjalankan kode aplikasi dalam sebuah cluster.


46) Bagaimana cara meluncurkan pekerjaan Spark di dalam Hadoop MapReduce?

Spark di MapReduce memungkinkan pengguna menjalankan semua jenis pekerjaan percikan di dalam MapReduce tanpa perlu mendapatkan hak admin aplikasi tersebut.


47) Jelaskan proses untuk memicu pembersihan otomatis di Spark untuk mengelola akumulasi metadata.

Anda dapat memicu pembersihan otomatis dengan melihat parameter 'spark.cleaner.ttf atau dengan memisahkan pekerjaan yang sudah berjalan lama menjadi beberapa batch dan menulis hasil antara ke disk.


48) Jelaskan penggunaan Blinkdb

BlinkDB adalah alat mesin kueri yang memungkinkan Anda menjalankan kueri SQL pada data dalam jumlah besar dan menampilkan hasil kueri di bilah kesalahan yang berarti.


49) Apakah Hoe Spark menangani pemantauan dan logging dalam mode Standalone?

Ya, percikan dapat menangani pemantauan dan pencatatan dalam mode mandiri karena memiliki antarmuka pengguna berbasis web.


50) Bagaimana Anda dapat mengidentifikasi apakah operasi tertentu merupakan Transformasi atau Tindakan?

Anda dapat mengidentifikasi operasi berdasarkan tipe pengembalian. Jika tipe yang dikembalikan bukan RDD, maka operasinya adalah suatu tindakan. Namun, jika tipe kembaliannya sama dengan RDD, maka operasinya adalah transformasi.


51) Bisakah Anda Menggunakan Apache Spark Untuk Menganalisis dan Mengakses Data yang Disimpan di Database Cassandra?

Ya, Anda dapat menggunakan Spark Cassandra Connector yang memungkinkan Anda mengakses dan menganalisis data yang disimpan di Cassandra Database.


52) Sebutkan perbedaan antara Spark SQL dan Hql

SparkSQL adalah komponen penting pada mesin Spark Core. Ini mendukung SQL dan Hive Query Language tanpa mengubah sintaksisnya.

Pertanyaan wawancara ini juga akan membantu dalam viva Anda (lisan)

Share

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai *