50 najpopularniejszych pytań i odpowiedzi podczas wywiadów z Apache Spark (2025)
Pytania do rozmowy kwalifikacyjnej Spark dla nowicjuszy i doświadczonych
Oto pytania i odpowiedzi dotyczące rozmów kwalifikacyjnych w Apache Spark dla nowicjuszy, a także doświadczonych kandydatów do nauki danych, którzy pomogą im zdobyć wymarzoną pracę.
1) Co to jest Apache Spark?
Apache Spark to łatwa w obsłudze i elastyczna platforma przetwarzania danych. Iskra może kręcić się dalej Hadoopsamodzielnie lub w chmurze. Jest w stanie ocenić różnorodne źródła danych, w tym HDFS, Cassandra i inne.
Bezpłatne pobieranie w formacie PDF: Pytania i odpowiedzi dotyczące wywiadu z Apache Spark
2) Wyjaśnij DSstream w odniesieniu do Apache Spark
Dstream to sekwencja odpornej rozproszonej bazy danych, która reprezentuje strumień danych. Możesz utworzyć Dstream z różnych źródeł, takich jak HDFS, Apache Flume, Apache Kafka, itp.
3) Wymień trzy źródła danych dostępne w SparkSQL
Źródła danych dostępne w SparkSQL to:
4) Wymień kilka wewnętrznych demonów używanych w iskrze?
Ważnymi demonami używanymi w iskrze są Blockmanager, Memestore, DAGscheduler, Driver, Worker, Executor, Tasks itp.
5) Zdefiniuj termin „wektor rzadki”.
Wektor rzadki to wektor, który ma dwie równoległe tablice, jedną dla indeksów, drugą dla wartości, używany do przechowywania niezerowych jednostek w celu zaoszczędzenia miejsca.
6) Podaj nazwę języka obsługiwanego przez Apache Spark do tworzenia aplikacji Big Data
Ważne języki używane przy tworzeniu aplikacji Big Data to:
- Java
- Python
- R
- Clojure
- Scala
7) Jaka jest metoda tworzenia ramki danych?
W Apache Spark ramkę danych można utworzyć przy użyciu tabel w Hive i plików danych strukturalnych.
8) Wyjaśnij schemat RDD
RDD składający się z obiektu wiersza zawierającego informacje o schemacie dotyczące typu danych w każdej kolumnie nazywa się SchemaRDD.
9) Czym są akumulatory?
Akumulatory są zmiennymi przeznaczonymi tylko do zapisu. Są one inicjowane raz i wysyłane do pracowników. Pracownicy ci zostaną zaktualizowani w oparciu o zapisaną logikę, która zostanie odesłana do sterownika.
10) Jakie są elementy ekosystemu Spark?
Ważnym elementem Sparka są:
- Rdzeń iskry: Jest to podstawowy silnik do równoległego i rozproszonego przetwarzania danych na dużą skalę
- Przesyłanie strumieniowe Sparka: Ten komponent służy do przesyłania strumieniowego danych w czasie rzeczywistym.
- Iskra SQL: Integruje przetwarzanie relacyjne przy użyciu funkcjonalnego interfejsu API programowania Spark
- WykresX: Umożliwia tworzenie wykresów i obliczeń równoległych do wykresów
- Biblioteka MLlib: Umożliwia wykonywanie uczenia maszynowego w Apache Spark
11) Wymień trzy cechy korzystania z Apache Spark
Trzy najważniejsze cechy korzystania z Apache Spark to:
- Wsparcie dla zaawansowanych analiz
- Pomaga w integracji z Hadoop i istniejącymi danymi Hadoop
- Pozwala na uruchomienie aplikacji w klastrze Hadoop, nawet 100 razy szybciej w pamięci i XNUMX razy szybciej na dysku.
12) Wyjaśnij domyślny poziom równoległości w Apache Spark
Jeśli użytkownik nie jest w stanie określić, liczba partycji jest uważana za domyślny poziom równoległości w Apache Spark.
13) Wymień trzy firmy korzystające z usług Spark Streaming
Trzy znane firmy korzystające z usług Spark Streaming to:
- Uber
- Netflix
14) Co to jest Spark SQL?
Spark SQL to moduł do ustrukturyzowanego przetwarzania danych, w którym wykorzystujemy zapytania SQL działające na tej bazie danych.
15) Wyjaśnij plik parkietu
Paraquet to plik w formacie kolumnowym obsługiwany przez wiele innych systemów przetwarzania danych. Spark SQL umożliwia wykonywanie zarówno operacji odczytu, jak i zapisu na pliku Parquet.
16) Wyjaśnij sterownik Spark?
Spark Driver to program, który działa na głównym węźle maszyny i deklaruje transformacje i akcje na danych RDD.
17) Jak przechowywać dane w iskrze?
Spark to silnik przetwarzający, który nie ma żadnego silnika pamięci masowej. Może pobierać dane z innego silnika przechowywania, takiego jak HDFS, S3.
18) Wyjaśnij użycie interfejsu API systemu plików w Apache Spark
System plików API umożliwia odczyt danych z różnych urządzeń pamięci masowej, takich jak HDFS, S3 lub lokalny Fileyste.
19) Jakie jest zadanie Spark Engine
Spark Engine jest pomocny w planowaniu, dystrybucji i monitorowaniu aplikacji danych w klastrze.
20) Kim jest użytkownik sparkContext?
SparkContent to punkt wejścia do Sparka. SparkContext umożliwia tworzenie RDD, które zapewniają różne sposoby ubijania danych.
21) Jak wdrożyć uczenie maszynowe w Sparku?
MLif to wszechstronna biblioteka uczenia maszynowego udostępniona przez firmę Spark.
22) Czy możesz przetwarzać w czasie rzeczywistym za pomocą Spark SQL?
Bezpośrednie przetwarzanie danych w czasie rzeczywistym nie jest możliwe. Jest to jednak możliwe poprzez zarejestrowanie istniejącego RDD jako tabeli SQL i wywołanie zapytań SQL z priorytetem.
23) Jakie są istotne różnice pomiędzy Apache i Hadoop
Parametr | Apache Spark | Hadoop |
Prędkość | 100 razy szybciej w porównaniu do Hadoopa. | Ma umiarkowaną prędkość. |
Przetwarzanie | Funkcja przetwarzania wsadowego w czasie rzeczywistym. | Oferuje wyłącznie przetwarzanie wsadowe. |
Krzywa uczenia się | Łatwo | Ciężko |
Interaktywność | Posiada tryby interaktywne | Oprócz Pig and Hive nie ma interaktywnego sposobu. |
24) czy możesz uruchomić Apache Spark na Apache Mesos?
Tak, możesz uruchomić Apache Spark na klastrach sprzętowych zarządzanych przez Mesos.
25) Wyjaśnij partycje
Partycja to mniejszy i logiczny podział danych. Jest to metoda wyprowadzania jednostek logicznych danych w celu przyspieszenia procesu przetwarzania.
26) Zdefiniuj termin „Lazy Evolution” w odniesieniu do Apache Spark
Apache Spark opóźnia ocenę, dopóki nie będzie potrzebna. W przypadku transformacji Spark dodaje je do DAG obliczeń i tylko wtedy, gdy wyprowadza żądanie pewnych danych.
27) Wyjaśnij zastosowanie zmiennych rozgłoszeniowych
Najczęstsze zastosowania zmiennych rozgłoszeniowych to:
- Zmienne rozgłoszeniowe pomagają programiście przechowywać zmienną tylko do odczytu w pamięci podręcznej na każdym komputerze, zamiast wysyłać jej kopię z zadaniami.
- Można ich również użyć, aby w efektywny sposób zapewnić każdemu węzłowi kopię dużego wejściowego zestawu danych.
- Algorytmy rozgłoszeniowe pomagają również obniżyć koszty komunikacji
28) Jak możesz używać Akki ze Sparkiem?
Spark używa Akka do planowania. Używa również Akka do przesyłania wiadomości między pracownikami a mistrzami.
29) Które są podstawowe struktura danych iskrowy
Ramka danych jest podstawą, jest podstawową strukturą danych Sparka.
30) Czy możesz używać Sparka do procesu ETL?
Tak, możesz użyć iskry do procesu ETL.
31) Jaki jest pożytek z transformacji mapy?
Transformacja mapy na RDD tworzy kolejny RDD poprzez translację każdego elementu. Pomaga w tłumaczeniu każdego elementu, wykonując funkcję dostarczoną przez użytkownika.
32) Jakie są wady korzystania ze Sparka?
Oto niektóre wady korzystania ze Sparka:
- Spark zużywa ogromną ilość danych w porównaniu z Hadoopem.
- Nie można uruchomić wszystkiego w jednym węźle, ponieważ praca w wielu klastrach nie może być godna zaufania.
- Deweloperzy wymagają szczególnej uwagi podczas uruchamiania aplikacji w platformie Spark.
- Przesyłanie strumieniowe Spark nie zapewnia obsługi kryteriów okna opartych na rekordach.
33) Jakie są typowe zastosowania Apache Spark?
- Apache Spark służy do:
- Interaktywne uczenie maszynowe
- Przetwarzanie strumienia
- Analityka i przetwarzanie danych
- Przetwarzanie danych czujnika
34) Podaj różnicę pomiędzy funkcjami „persist()” i „cache(”).
Funkcja Persist() pozwala użytkownikowi określić poziom przechowywania, podczas gdy funkcja cache() korzysta z domyślnego poziomu przechowywania.
35) Nazwij bibliotekę Spark, która umożliwia niezawodne udostępnianie plików z szybkością pamięci w różnych strukturach klastrów.
Tachyon to biblioteka Spark, która umożliwia niezawodne udostępnianie plików z szybkością pamięci w różnych strukturach klastrowych.
36) Apache Spark dobrze pasuje do jakiego typu technik uczenia maszynowego?
Apache Spark idealnie nadaje się do prostych algorytmów uczenia maszynowego, takich jak grupowanie, regresja i klasyfikacja.
37) Jak usunąć element z krytycznym obecnym w dowolnym innym Rdd iskrą Apache?
Aby usunąć elementy posiadające klucz obecny w dowolnym innym rdd, musisz użyć funkcji substractkey().
38) Jaki jest pożytek z punktów kontrolnych w iskrze?
Punkty kontrolne pozwalają programowi działać przez całą dobę. Co więcej, pomaga uczynić go odpornym na awarie niezależnie od logiki aplikacji.
39) Wyjaśnij wykres rodowodu
Komputer informacyjny z wykresem rodowodu, każdy RDD na żądanie. Dlatego zawsze, gdy część trwałego RDD zostanie utracona. W takiej sytuacji można odzyskać te dane, korzystając z informacji o wykresie pochodzenia.
40) Jakie formaty plików obsługuje Spark?
Spark obsługuje formaty plików json, tsv, snappy, orc, rc itp.
41) Czym są akcje?
Akcja pomaga przywrócić dane z RDD na komputer lokalny. Jego wykonanie jest efektem wszystkich wcześniej stworzonych przekształceń.
42) Co to jest przędza?
Przędza jest jedną z najważniejszych cech Apache Spark. Uruchomiona iskra na Yarn powoduje binarną dystrybucję iskry, ponieważ jest zbudowana na wsparciu Yarn.
43) Wyjaśnij wykonawcę Spark
Executor to proces Spark, który uruchamia obliczenia i przechowuje dane w węźle roboczym. Ostateczne zadania przez SparkContent przekazywane są wykonawcy w celu ich wykonania.
44) czy konieczne jest zainstalowanie Sparka na wszystkich węzłach podczas uruchamiania aplikacji Spark na Yarn?
Nie, niekoniecznie musisz instalować iskrę na wszystkich węzłach, ponieważ iskra działa na wierzchu Yarn.
45) Co to jest węzeł roboczy w Apache Spark?
Węzeł roboczy to dowolny węzeł, w którym można uruchomić kod aplikacji w klastrze.
46) Jak uruchomić zadania Spark w Hadoop MapReduce?
Spark w MapReduce umożliwia użytkownikom uruchamianie wszelkiego rodzaju zadań Spark w MapReduce bez konieczności uzyskiwania uprawnień administratora tej aplikacji.
47) Wyjaśnij proces wyzwalania automatycznego czyszczenia w platformie Spark w celu zarządzania zgromadzonymi metadanymi.
Można uruchomić automatyczne czyszczenie, sprawdzając parametr „spark.cleaner.ttf” lub dzieląc długotrwałe zadania na różne partie i zapisując pośrednie wyniki na dysku.
48) Wyjaśnij użycie Blinkdb
BlinkDB to narzędzie silnika zapytań, które umożliwia wykonywanie zapytań SQL na ogromnych ilościach danych i wyświetla wyniki zapytań w postaci znaczących słupków błędów.
49) Czy Hoe Spark obsługuje monitorowanie i logowanie w trybie Standalone?
Tak, Spark może obsługiwać monitorowanie i rejestrowanie w trybie autonomicznym, ponieważ ma internetowy interfejs użytkownika.
50) Jak rozpoznać, czy dana operacja jest Transformacją, czy Akcją?
Operację można zidentyfikować na podstawie typu zwrotu. Jeśli typem zwracanym nie jest RDD, operacja jest akcją. Jeśli jednak typ zwracany jest taki sam jak RDD, wówczas operacją jest transformacja.
51) Czy możesz używać Apache Spark do analizowania i uzyskiwania dostępu do danych przechowywanych w bazach danych Cassandra?
Tak, możesz używać Spark Cassandra Connector, który umożliwia dostęp i analizę danych przechowywanych w Cassandra Database.
52) Podaj różnicę pomiędzy Spark SQL i Hql
SparkSQL jest niezbędnym komponentem silnika Spark Core. Obsługuje język zapytań SQL i Hive bez zmiany jego składni.
Te pytania podczas rozmowy kwalifikacyjnej pomogą również w Twoim życiu (ustach)