Топ-52 запитань і відповідей на інтерв’ю Apache Spark (2025)

Запитання для співбесіди Spark для новачків і досвідчених

Ось питання та відповіді на співбесіді з Apache Spark для новачків, а також для досвідчених кандидатів у Data Science, щоб отримати роботу своєї мрії.


1) Що таке Apache Spark?

Apache Spark — проста у використанні та гнучка структура обробки даних. Іскра може закруглитися Hadoop, автономно або в хмарі. Він здатний оцінювати різноманітні джерела даних, включаючи HDFS, Cassandra та інші.

Безкоштовне завантаження PDF: запитання та відповіді на інтерв’ю Apache Spark


2) Поясніть Dsstream з посиланням на Apache Spark

Dstream — це послідовність стійкої розподіленої бази даних, яка представляє потік даних. Ви можете створити Dstream з різних джерел, таких як HDFS, Apache Flume, Apache Кафка, І т.д.


3) Назвіть три джерела даних, доступні в SparkSQL

У SparkSQL є такі джерела даних:

  • JSON Набори даних
  • Вулик Таблиці
  • Пилка для паркету

4) Назвіть деякі внутрішні демони, які використовуються в spark?

Важливими демонами, які використовуються в spark, є Blockmanager, Memestore, DAGscheduler, Driver, Worker, Executor, Tasks тощо.


5) Дайте визначення терміну «розріджений вектор».

Розріджений вектор — це вектор, який має два паралельних масиви, один для індексів, інший для значень, які використовуються для зберігання ненульових сутностей для економії місця.

Запитання Spark Interview
Запитання Spark Interview

6) Назвіть мову, яку підтримує Apache Spark для розробки програм великих даних

Важливе використання мови для розробки програми великих даних:

  • Java
  • Python
  • R
  • Clojure
  • масштаб

7) Який метод створення кадру даних?

В Apache Spark фрейм даних можна створити за допомогою файлів таблиць у Hive і структурованих даних.


8) Поясніть SchemaRDD

RDD, який складається з об’єкта рядка з інформацією про тип даних у кожному стовпці, називається SchemaRDD.


9) Що таке акумулятори?

Акумулятори — це змінні, призначені лише для запису. Вони ініціалізуються один раз і надсилаються працівникам. Ці працівники оновлюватимуться на основі написаної логіки, яка надсилатиметься назад драйверу.


10) Які компоненти екосистеми Spark?

Важливими компонентами Spark є:

  • SparkCore: Це базовий механізм для великомасштабної паралельної та розподіленої обробки даних
  • Spark Streaming: Цей компонент використовується для потокової передачі даних у реальному часі.
  • Іскритися SQL: Інтегрує реляційну обробку за допомогою API функціонального програмування Spark
  • GraphX: Дозволяє графи та графо-паралельні обчислення
  • MLlib: Дозволяє виконувати машинне навчання в Apache Spark

11) Назвіть три особливості використання Apache Spark

Три найважливіші особливості використання Apache Spark:

  1. Підтримка складної аналітики
  2. Допомагає вам інтегруватися з Hadoop і наявними даними Hadoop
  3. Це дозволяє запускати програму в кластері Hadoop, до 100 разів швидше в пам’яті та в десять разів швидше на диску.

12) Поясніть стандартний рівень паралелізму в Apache Spark

Якщо користувач не може вказати, кількість розділів вважається стандартним рівнем паралелізму в Apache Spark.


13) Назвіть три компанії, які користуються послугами Spark Streaming

Три відомі компанії, які використовують послуги Spark Streaming:

  • Убер
  • Netflix
  • Pinterest

14) Що таке Spark SQL?

Spark SQL — це модуль для обробки структурованих даних, де ми використовуємо запити SQL, що виконуються в цій базі даних.


15) Поясніть напилок для паркету

Paraquet — це файл стовпчастого формату, який підтримується багатьма іншими системами обробки даних. Spark SQL дозволяє виконувати операції читання та запису з файлом Parquet.


16) Поясніть драйвер Spark?

Spark Driver — це програма, яка працює на головному вузлі машини та оголошує перетворення та дії на RDD даних.


17) Як ви можете зберігати дані в spark?

Spark — це механізм обробки, який не має механізму зберігання. Він може отримувати дані з іншого механізму зберігання, наприклад HDFS, S3.


18) Поясніть використання API файлової системи в Apache Spark

файлова система API дозволяє читати дані з різних пристроїв зберігання, таких як HDFS, S3 або локальний Fileyste.


19) Яке завдання Spark Engine

Spark Engine корисний для планування, розподілу та моніторингу програми даних у кластері.


20) Хто є користувачем sparkContext?

SparkContent є точкою входу для запуску. SparkContext дозволяє створювати RDD, які забезпечують різні способи збивання даних.


21) Як можна реалізувати машинне навчання в Spark?

MLif — це універсальна бібліотека машинного навчання від Spark.


22) Чи можете ви виконувати обробку в реальному часі за допомогою Spark SQL?

Безпосередня обробка даних у реальному часі неможлива. Однак це можливо, зареєструвавши наявний RDD як таблицю SQL і викликаючи пріоритетні запити SQL.


23) Які важливі відмінності між Apache і Hadoop

Параметр Apache Spark Hadoop
швидкість У 100 разів швидше порівняно з Hadoop. Має помірну швидкість.
Обробка Функція пакетної обробки в реальному часі. Він пропонує лише пакетну обробку.
Крива навчання Easy Жорсткий
Інтерактивність Має інтерактивні режими Крім Pig і Hive, він не має інтерактивного способу.

24) чи можна запустити Apache Spark на Apache Mesos?

Так, ви можете запустити Apache Spark на апаратних кластерах, якими керує Mesos.


25) Поясніть розділи

Розділ — це менший і логічний розділ даних. Це метод отримання логічних одиниць даних для прискорення процесу обробки.


26) Дайте визначення терміну «Лінива еволюція» з посиланням на Apache Spark

Apache Spark відкладає свою оцінку, поки вона не знадобиться. Для перетворень Spark додає їх до DAG обчислень і лише тоді, коли отримання вимагає деяких даних.


27) Поясніть використання трансляційних змінних

Найбільш поширеним використанням трансляційних змінних є:

  • Широкомовні змінні допомагають програмісту зберігати кешовану змінну лише для читання на кожній машині замість того, щоб надсилати її копію із завданнями.
  • Ви також можете використовувати їх, щоб ефективно надати кожному вузлу копію великого вхідного набору даних.
  • Алгоритми трансляції також допомагають зменшити витрати на зв’язок

28) Як ви можете використовувати Akka з Spark?

Spark використовує використання Akka для планування. Він також використовує Akka для обміну повідомленнями між робітниками та майстрами.


29) Який фундаментальний структура даних Іскри

Фрейм даних є фундаментальним — це фундаментальна структура даних Spark.


30) Чи можна використовувати Spark для процесу ETL?

Так, ви можете використовувати spark для процесу ETL.


31) Яке використання трансформації карти?

Трансформація карти на RDD створює інший RDD шляхом перекладу кожного елемента. Це допомагає вам перекладати кожен елемент, виконуючи функцію, надану користувачем.


32) Які недоліки використання Spark?

Нижче наведено деякі з недоліків використання Spark:

  • Spark споживає величезну кількість даних порівняно з Hadoop.
  • Ви не можете запустити все на одному вузлі, оскільки робота не повинна бути довіреною над кількома кластерами.
  • Розробники потребують особливої ​​обережності під час запуску своєї програми в Spark.
  • Spark streaming не підтримує критерії вікна на основі записів.

33) Як зазвичай використовується Apache Spark?

  • Apache Spark використовується для:
  • Інтерактивне машинне навчання
  • Потокова обробка
  • Аналітика та обробка даних
  • Обробка даних датчиків

34) Вкажіть різницю між функціями persist() і cache().

Функція Persist() дозволяє користувачеві вказати рівень зберігання, тоді як cache() використовує рівень зберігання за замовчуванням.


35) Назвіть бібліотеку Spark, яка забезпечує надійний обмін файлами зі швидкістю пам’яті між різними кластерними фреймворками.

Tachyon — це бібліотека spark, яка забезпечує надійний обмін файлами на швидкості пам’яті між різними кластерними фреймворками.


36) Apache Spark добре підходить для якого типу техніки машинного навчання?

Apache Spark ідеально підходить для простих алгоритмів машинного навчання, таких як кластеризація, регресія та класифікація.


37) Як ви можете видалити елемент із критичним наявним у будь-якому іншому Rdd is Apache spark?

Щоб видалити елементи з ключем, присутнім у будь-якому іншому rdd, вам потрібно використовувати функцію substractkey().


38) Яка користь від КПП в спарк?

Контрольні точки дозволяють програмі працювати цілодобово. Крім того, це допомагає зробити його стійким до збоїв, незалежно від логіки програми.


39) Поясніть графік походження

Інформаційний комп’ютер із графіком походження кожного RDD на вимогу. Таким чином, щоразу, коли частина постійного RDD втрачається. У такій ситуації ви можете відновити ці дані за допомогою інформації графа походження.


40) Які формати файлів підтримує spark?

Spark підтримує формати файлів json, tsv, snappy, orc, rc тощо.


41) Що таке дії?

Дія допоможе вам повернути дані з RDD на локальну машину. Його виконання є результатом усіх раніше створених перетворень.


42) Що таке пряжа?

Пряжа є однією з найважливіших функцій Apache Spark. Running spark on Yarn забезпечує двійковий розподіл іскри, оскільки він побудований на підтримці Yarn.


43) Поясніть Spark Executor

Виконавець — це процес Spark, який виконує обчислення та зберігає дані на робочому вузлі. Фінальні завдання SparkContent передаються виконавцю для їх виконання.


44) чи потрібно встановлювати Spark на всіх вузлах під час запуску програми Spark на Yarn?

Ні, вам не обов’язково встановлювати spark на всіх вузлах, оскільки spark працює поверх Yarn.


45) Що таке робочий вузол в Apache Spark?

Робочий вузол — це будь-який вузол, який може виконувати код програми в кластері.


46) Як можна запускати завдання Spark у Hadoop MapReduce?

Spark у MapReduce дозволяє користувачам запускати всі види завдань Spark у MapReduce без необхідності отримання прав адміністратора цієї програми.


47) Поясніть процес ініціювання автоматичного очищення в Spark для керування накопиченими метаданими.

Ви можете запустити автоматичне очищення, переглянувши параметр «spark.cleaner.ttf» або розділивши довгострокові завдання на різні пакети та записавши проміжні результати на диск.


48) Поясніть використання Blinkdb

BlinkDB — це інструмент механізму запитів, який дозволяє виконувати запити SQL до величезних обсягів даних і відображає результати запитів у значущих панелях помилок.


49) Чи обробляє Hoe Spark моніторинг і журналювання в автономному режимі?

Так, spark може керувати моніторингом і журналюванням в автономному режимі, оскільки він має веб-інтерфейс користувача.


50) Як можна визначити, чи є дана операція перетворенням чи дією?

Ви можете визначити операцію на основі типу повернення. Якщо тип повернення не RDD, тоді операція є дією. Однак, якщо тип повернення такий самий, як RDD, тоді операція є перетворенням.


51) Чи можете ви використовувати Apache Spark для аналізу та доступу до даних, що зберігаються в базах даних Cassandra?

Так, ви можете використовувати Spark Cassandra Connector, який дозволяє отримувати доступ і аналізувати дані, що зберігаються в базі даних Cassandra.


52) Вкажіть різницю між Spark SQL і Hql

SparkSQL є важливим компонентом двигуна spark Core. Він підтримує SQL і Hive Query Language без зміни синтаксису.

Ці запитання для співбесіди також допоможуть вам у життєдіяльності (усному)

Поділитись

залишити коментар

Ваша електронна адреса не буде опублікований. Обов'язкові поля позначені * *