Топ 52 въпроса и отговора за интервю за Apache Spark (2025 г.)
Въпроси за Spark Interview за първокурсници и опитни
Ето въпроси и отговори за интервю с Apache Spark за първокурсници, както и за опитни кандидати за Data Science, за да получат мечтаната работа.
1) Какво е Apache Spark?
Apache Spark е лесна за използване и гъвкава рамка за обработка на данни. Искра може да заобиколи Hadoop, самостоятелно или в облака. Той е способен да оценява разнообразни източници на данни, които включват HDFS, Cassandra и други.
Безплатно изтегляне на PDF: Въпроси и отговори за интервю с Apache Spark
2) Обяснете Dsstream с позоваване на Apache Spark
Dstream е последователност от устойчива разпределена база данни, която представлява поток от данни. Можете да създадете Dstream от различни източници като HDFS, Apache Flume, Apache КафкаИ др
3) Назовете три източника на данни, налични в SparkSQL
Наличните източници на данни в SparkSQL са:
4) Назовете някои вътрешни демони, използвани в spark?
Важни демони, използвани в spark, са Blockmanager, Memestore, DAGscheduler, Driver, Worker, Executor, Tasks и др.
5) Дефинирайте термина „разреден вектор“.
Разреденият вектор е вектор, който има два паралелни масива, един за индекси, един за стойности, използвани за съхраняване на ненулеви обекти, за да спестите място.
6) Посочете езика, поддържан от Apache Spark за разработване на приложения за големи данни
Важни езикови употреби за разработване на приложения за големи данни са:
- Ява
- Питон
- R
- Clojure
- Scala
7) Какъв е методът за създаване на рамка с данни?
В Apache Spark може да се създаде рамка с данни с помощта на таблици в Hive и файлове със структурирани данни.
8) Обяснете SchemaRDD
RDD, който се състои от обект на ред с информация за схемата за типа данни във всяка колона, се нарича SchemaRDD.
9) Какво представляват акумулаторите?
Акумулаторите са променливите само за запис. Те се инициализират веднъж и се изпращат на работниците. Тези работници ще се актуализират въз основа на написаната логика, която ще изпрати обратно на драйвера.
10) Какви са компонентите на Spark Ecosystem?
Важен компонент на Spark са:
- Spark Core: Това е базов двигател за широкомащабна паралелна и разпределена обработка на данни
- Spark Streaming: Този компонент се използва за поточно предаване на данни в реално време.
- Искра SQL: Интегрира релационна обработка чрез използване на API за функционално програмиране на Spark
- GraphX: Позволява графики и графо-паралелни изчисления
- MLlib: Позволява ви да извършвате машинно обучение в Apache Spark
11) Назовете три характеристики на използването на Apache Spark
Трите най-важни характеристики на използването на Apache Spark са:
- Поддръжка за усъвършенстван анализ
- Помага ви да се интегрирате с Hadoop и съществуващи Hadoop данни
- Тя ви позволява да стартирате приложение в Hadoop клъстер, до 100 пъти по-бързо в паметта и десет пъти по-бързо на диска.
12) Обяснете нивото на паралелизъм по подразбиране в Apache Spark
Ако потребителят не може да посочи, тогава броят на дяловете се счита за ниво на паралелизъм по подразбиране в Apache Spark.
13) Посочете три компании, които използват услугите на Spark Streaming
Три известни компании, използващи услугите на Spark Streaming, са:
- Uber
- Netflix
14) Какво е Spark SQL?
Spark SQL е модул за обработка на структурирани данни, където се възползваме от SQL заявките, изпълнявани в тази база данни.
15) Обяснете пила за паркет
Paraquet е файл с колонен формат, поддържан от много други системи за обработка на данни. Spark SQL ви позволява да извършвате операции както за четене, така и за запис с Parquet файл.
16) Обяснете Spark Driver?
Spark Driver е програмата, която работи на главния възел на машината и декларира трансформации и действия върху RDD с данни.
17) Как можете да съхранявате данните в spark?
Spark е процесор за обработка, който няма двигател за съхранение. Може да извлича данни от друга система за съхранение като HDFS, S3.
18) Обяснете използването на API на файловата система в Apache Spark
Файловата система API ви позволява да четете данни от различни устройства за съхранение като HDFS, S3 или локален Fileyste.
19) Каква е задачата на Spark Engine
Spark Engine е полезен за планиране, разпространение и наблюдение на приложението за данни в клъстера.
20) Кой е потребителят на sparkContext?
SparkContent е входната точка за запалване. SparkContext ви позволява да създавате RDD, които предоставят различни начини за прехвърляне на данни.
21) Как можете да внедрите машинно обучение в Spark?
MLif е многофункционална библиотека за машинно обучение, предоставена от Spark.
22) Можете ли да извършвате обработка в реално време със Spark SQL?
Обработката на данни в реално време не е възможна директно. Въпреки това е възможно чрез регистриране на съществуващ RDD като SQL таблица и задействане на SQL заявките по приоритет.
23) Какви са важните разлики между Apache и Hadoop
Параметър | Апачи Спарк | Hadoop |
---|---|---|
Скорост | 100 пъти по-бързо в сравнение с Hadoop. | Има умерена скорост. |
Обработване | Функция за пакетна обработка в реално време. | Предлага само групова обработка. |
Крива на обучение | Лесна | Трудно |
Интерактивност | Има интерактивни режими | Освен Pig и Hive, той няма интерактивен начин. |
24) можете ли да стартирате Apache Spark на Apache Mesos?
Да, можете да стартирате Apache Spark на хардуерните клъстери, управлявани от Mesos.
25) Обяснете дяловете
Дялът е по-малко и логично разделение на данни. Това е методът за извличане на логически единици данни за ускоряване на процеса на обработка.
26) Дефинирайте термина „мързелива еволюция“ по отношение на Apache Spark
Apache Spark забавя своята оценка, докато не е необходима. За трансформациите Spark ги добавя към DAG на изчисление и само когато извличането изисква някои данни.
27) Обяснете използването на излъчвани променливи
Най-често използваните променливи за излъчване са:
- Излъчваните променливи помагат на програмиста да запази променлива само за четене в кеша на всяка машина, вместо да изпраща нейно копие със задачи.
- Можете също така да ги използвате, за да дадете на всеки възел копие на голям входен набор от данни по ефективен начин.
- Алгоритмите за излъчване също ви помагат да намалите разходите за комуникация
28) Как можете да използвате Akka със Spark?
Spark използва използването на Akka за планиране. Той също така използва Akka за съобщения между работниците и майсторите.
29) Което е основното структура на данни на Искра
Рамката от данни е фундаментална, това е основната структура на данните на Spark.
30) Можете ли да използвате Spark за ETL процес?
Да, можете да използвате spark за ETL процеса.
31) Каква е ползата от трансформацията на карта?
Трансформацията на карта на RDD създава друг RDD чрез преобразуване на всеки елемент. Помага ви да преведете всеки елемент, като изпълните функцията, предоставена от потребителя.
32) Какви са недостатъците на използването на Spark?
Следните са някои от недостатъците на използването на Spark:
- Spark консумира огромно количество данни в сравнение с Hadoop.
- Не можете да изпълнявате всичко на един възел, тъй като работата трябва да не се доверява на множество клъстери.
- Разработчиците се нуждаят от допълнително внимание, докато изпълняват приложението си в Spark.
- Поточното предаване на Spark не предоставя поддръжка за критерии за прозорци, базирани на запис.
33) Какви са обичайните употреби на Apache Spark?
- Apache Spark се използва за:
- Интерактивно машинно обучение
- Поточна обработка
- Анализ и обработка на данни
- Обработка на сензорни данни
34) Посочете разликата между функциите persist() и cache().
Функцията Persist() позволява на потребителя да посочи нивото на съхранение, докато cache() използва нивото на съхранение по подразбиране.
35) Наименувайте библиотеката на Spark, която позволява надеждно споделяне на файлове със скорост на паметта в различни клъстерни рамки.
Tachyon е искрова библиотека, която позволява надеждно споделяне на файлове със скорост на паметта в различни клъстерни рамки.
36) Apache Spark е подходящ за кой тип техники за машинно обучение?
Apache Spark е идеален за прости алгоритми за машинно обучение като клъстериране, регресия и класификация.
37) Как можете да премахнете елемента с критично присъствие във всеки друг Rdd е Apache spark?
За да премахнете елементите с ключ, присъстващ във всеки друг rdd, трябва да използвате функцията substractkey().
38) Каква е ползата от контролните точки в искра?
Контролните точки позволяват на програмата да работи денонощно. Освен това помага да се направи устойчив на повреда, независимо от логиката на приложението.
39) Обяснете графиката на родословието
Компютър с информация за графика на родословието всеки RDD при поискване. Следователно, всеки път, когато се загуби част от постоянен RDD. В тази ситуация можете да възстановите тези данни, като използвате информация от графиката на родословието.
40) Какви са файловите формати, поддържани от spark?
Spark поддържа файлов формат json, tsv, snappy, orc, rc и др.
41) Какво представляват действията?
Действието ви помага да върнете данните от RDD на локалната машина. Неговото изпълнение е резултат от всички предварително създадени трансформации.
42) Какво е прежда?
Yarn е една от най-важните характеристики на Apache Spark. Running spark on Yarn прави двоично разпределение на spark, тъй като е изградено върху поддръжката на Yarn.
43) Обяснете Spark Executor
Изпълнителят е процес на Spark, който изпълнява изчисления и съхранява данните в работния възел. Крайните задачи от SparkContent се прехвърлят на изпълнителя за тяхното изпълнение.
44) необходимо ли е да инсталирате Spark на всички възли, докато изпълнявате приложението Spark на Yarn?
Не, не е задължително да инсталирате spark на всички възли, тъй като spark работи върху Yarn.
45) Какво е работен възел в Apache Spark?
Работен възел е всеки възел, който може да изпълнява кода на приложението в клъстер.
46) Как можете да стартирате задания на Spark в Hadoop MapReduce?
Spark в MapReduce позволява на потребителите да изпълняват всички видове spark задачи в MapReduce, без да е необходимо да получават администраторски права за това приложение.
47) Обяснете процеса за задействане на автоматично почистване в Spark за управление на натрупаните метаданни.
Можете да задействате автоматично почистване, като видите параметъра „spark.cleaner.ttf“ или като разделите дълго изпълняваните задачи на различни партиди и запишете междинните резултати на диска.
48) Обяснете използването на Blinkdb
BlinkDB е инструмент за заявки, който ви позволява да изпълнявате SQL заявки върху огромни обеми от данни и изобразява резултатите от заявките в значимите ленти за грешки.
49) Hoe Spark обработва ли мониторинг и регистриране в самостоятелен режим?
Да, spark може да обработва наблюдение и регистриране в самостоятелен режим, тъй като има уеб базиран потребителски интерфейс.
50) Как можете да определите дали дадена операция е Трансформация или Действие?
Можете да идентифицирате операцията въз основа на типа на връщането. Ако типът на връщане не е RDD, тогава операцията е действие. Ако обаче типът на връщане е същият като RDD, тогава операцията е трансформация.
51) Можете ли да използвате Apache Spark за анализиране и достъп до данни, съхранявани в базите данни на Cassandra?
Да, можете да използвате Spark Cassandra Connector, който ви позволява да осъществявате достъп и да анализирате данни, съхранявани в базата данни на Cassandra.
52) Посочете разликата между Spark SQL и Hql
SparkSQL е основен компонент на двигателя на spark Core. Той поддържа SQL и Hive Query Language, без да променя синтаксиса си.
Тези въпроси за интервюто също ще ви помогнат във вашата viva (устна)