Top 52 de întrebări și răspunsuri la interviu Apache Spark (2025)

Spark Interviu întrebări pentru cei proaspăt și cu experiență

Iată întrebările și răspunsurile la interviu Apache Spark pentru studenții, precum și candidații cu experiență în știința datelor, pentru a obține jobul visat.

1) Ce este Apache Spark?

Apache Spark este un cadru de procesare a datelor ușor de utilizat și flexibil. Spark se poate rotunji Hadoop, independent sau în cloud. Este capabil să evalueze diverse surse de date, care includ HDFS, Cassandra și altele.

Descărcare PDF gratuită: Întrebări și răspunsuri la interviu Apache Spark

2) Explicați Dsstream cu referire la Apache Spark

Dstream este o secvență de baze de date distribuite rezistente care reprezintă un flux de date. Puteți crea Dstream din diverse surse, cum ar fi HDFS, Apache Flume, Apache Kafka, Etc

3) Numiți trei surse de date disponibile în SparkSQL

Sursele de date disponibile în SparkSQL sunt:

JSON Datasets
Stup tabele
Dosar parchet

4) Numiți câțiva demoni interni folosiți în spark?

Daemonul important folosit în spark sunt Blockmanager, Memestore, DAGscheduler, Driver, Worker, Executor, Tasks etc.

5) Definiți termenul „Sparse Vector”.

Vectorul rar este un vector care are două tablouri paralele, unul pentru indici, unul pentru valori, utilizat pentru stocarea entităților diferite de zero pentru a economisi spațiu.

6) Denumiți limba suportată de Apache Spark pentru dezvoltarea aplicațiilor de date mari

Utilizarea importantă a limbajului pentru dezvoltarea aplicației de date mari sunt:

Java
Piton
R
Clojure
Scala

7) Care este metoda de a crea un cadru de date?

În Apache Spark, un cadru de date poate fi creat folosind Tabele din Hive și fișiere de date structurate.

8) Explicați SchemaRDD

Un RDD care constă dintr-un obiect rând cu informații despre schemă despre tipul de date din fiecare coloană se numește SchemaRDD.

9) Ce sunt acumulatorii?

Acumulatorii sunt variabilele doar pentru scriere. Sunt inițializate o dată și trimise lucrătorilor. Acești lucrători se vor actualiza pe baza logicii scrise, care va trimite înapoi șoferului.

10) Care sunt componentele Ecosistemului Spark?

O componentă importantă a Spark este:

SparkCore: Este un motor de bază pentru procesarea datelor paralele și distribuite la scară largă
Spark Streaming: Această componentă este folosită pentru fluxul de date în timp real.
Scânteie SQL: Integrează procesarea relațională utilizând API-ul de programare funcțional Spark
GraphX: Permite grafice și calcule paralele cu grafice
MLlib: Vă permite să efectuați învățarea automată în Apache Spark

11) Numiți trei caracteristici ale utilizării Apache Spark

Cele mai importante trei caracteristici ale utilizării Apache Spark sunt:

Suport pentru analize sofisticate
Vă ajută să vă integrați cu Hadoop și cu datele Hadoop existente
Vă permite să rulați o aplicație în cluster Hadoop, de până la 100 de ori mai rapid în memorie și de zece ori mai rapid pe disc.

12) Explicați nivelul implicit de paralelism în Apache Spark

Dacă utilizatorul nu poate specifica, atunci numărul de partiții este considerat ca nivel implicit de paralelism în Apache Spark.

13) Numiți trei companii care utilizează serviciile Spark Streaming

Trei companii cunoscute care folosesc serviciile Spark Streaming sunt:

Uber
Netflix
pinterest

14) Ce este Spark SQL?

Spark SQL este un modul pentru prelucrarea datelor structurate în care profităm de interogările SQL care rulează pe baza de date respectivă.

15) Explicați fișierul parchet

Paraquet este un fișier în format coloan suportat de multe alte sisteme de procesare a datelor. Spark SQL vă permite să efectuați atât operațiuni de citire, cât și de scriere cu fișierul Parquet.

16) Explicați Spark Driver?

Spark Driver este programul care rulează pe nodul principal al mașinii și declară transformări și acțiuni asupra RDD-urilor de date.

17) Cum puteți stoca datele în spark?

Spark este un motor de procesare care nu are niciun motor de stocare. Poate prelua date dintr-un alt motor de stocare precum HDFS, S3.

18) Explicați utilizarea API-ului sistemului de fișiere în Apache Spark

Sistemul de fișiere API vă permite să citiți date de pe diferite dispozitive de stocare precum HDFS, S3 sau Fileyste local.

19) Care este sarcina Spark Engine

Spark Engine este util pentru programarea, distribuirea și monitorizarea aplicației de date în cluster.

20) Care este utilizatorul sparkContext?

SparkContent este punctul de intrare pentru a genera scântei. SparkContext vă permite să creați RDD-uri care au furnizat diverse moduri de amestecare a datelor.

21) Cum puteți implementa învățarea automată în Spark?

MLif este o bibliotecă versatilă de învățare automată oferită de Spark.

22) Puteți face procesare în timp real cu Spark SQL?

Procesarea datelor în timp real nu este posibilă direct. Cu toate acestea, este posibil prin înregistrarea RDD existentă ca tabel SQL și declanșarea interogărilor SQL cu prioritate.

23) Care sunt diferențele importante dintre Apache și Hadoop

Parametru	Apache Spark	Hadoop
Viteză	De 100 de ori mai rapid în comparație cu Hadoop.	Are viteza moderata.
Prelucrare	Funcționalitate de procesare a loturilor în timp real.	Oferă numai procesare în loturi.
Curbă de învățare	Uşor	Greu
Interactivitate	Are moduri interactive	În afară de Pig and Hive, nu are o modalitate interactivă.

24) puteți rula Apache Spark pe Apache Mesos?

Da, puteți rula Apache Spark pe clusterele hardware gestionate de Mesos.

25) Explicați partițiile

Partiția este o diviziune mai mică și logică a datelor. Este metoda de derivare a unităților logice de date pentru a accelera procesul de procesare.

26) Definiți termenul „Lazy Evolution” cu referire la Apache Spark

Apache Spark amână evaluarea până când este nevoie. Pentru transformări, Spark le adaugă la un DAG de calcul și numai atunci când derivă solicită unele date.

27) Explicați utilizarea variabilelor de difuzare

Cea mai frecventă utilizare a variabilelor de difuzare sunt:

Variabilele de difuzare ajută programatorul să păstreze o variabilă numai pentru citire în cache pe fiecare mașină, în loc să trimită o copie a acesteia cu sarcini.
De asemenea, le puteți folosi pentru a oferi fiecărui nod o copie a unui set mare de date de intrare într-un mod eficient.
Algoritmii de difuzare vă ajută, de asemenea, să reduceți costurile de comunicare

28) Cum poți folosi Akka cu Spark?

Spark folosește utilizarea Akka pentru programare. De asemenea, folosește Akka pentru a trimite mesaje între muncitori și stăpâni.

29) Care este fundamentala structură de date de Spark

Cadrul de date este fundamental este structura de date fundamentală a Spark.

30) Puteți folosi Spark pentru procesul ETL?

Da, puteți utiliza spark pentru procesul ETL.

31) La ce folosește transformarea hărții?

Transformarea hărții pe un RDD produce un alt RDD prin traducerea fiecărui element. Vă ajută să traduceți fiecare element prin executarea funcției oferite de utilizator.

32) Care sunt dezavantajele utilizării Spark?

Următoarele sunt câteva dintre dezavantajele utilizării Spark:

Spark consumă o cantitate imensă de date în comparație cu Hadoop.
Nu puteți rula totul pe un singur nod, deoarece trebuie să nu aveți încredere în lucru pentru mai multe clustere.
Dezvoltatorii au nevoie de îngrijire suplimentară în timp ce își execută aplicația în Spark.
Spark streaming nu oferă suport pentru criteriile ferestrelor bazate pe înregistrare.

33) Care sunt utilizările comune ale Apache Spark?

Apache Spark este folosit pentru:
Învățare automată interactivă
Procesarea fluxurilor
Analiza și prelucrarea datelor
Prelucrarea datelor senzorilor

34) Precizați diferența dintre funcțiile persist() și cache().

Funcția Persist() permite utilizatorului să specifice nivelul de stocare, în timp ce cache() folosește nivelul implicit de stocare.

35) Denumiți Biblioteca Spark, care permite partajarea fiabilă a fișierelor la viteza memoriei în diferite cadre de cluster.

Tachyon este o bibliotecă spark care permite partajarea fiabilă a fișierelor la viteza memoriei în diferite cadre de cluster.

36) Apache Spark este potrivit pentru ce tip de tehnici de învățare automată?

Apache Spark este ideal pentru algoritmi simpli de învățare automată, cum ar fi gruparea, regresia și clasificarea.

37) Cum puteți elimina elementul cu un prezent critic în orice alt Rdd este Apache spark?

Pentru a elimina elementele cu o cheie prezentă în orice alt rdd, trebuie să utilizați funcția substractkey().

38) La ce folosesc punctele de control în spark?

Punctele de control permit programului să ruleze non-stop. În plus, ajută la o rezistență la eșec, indiferent de logica aplicației.

39) Explicați graficul filiației

Calculator cu informații despre graficul de linie fiecare RDD la cerere. Prin urmare, ori de câte ori o parte din RDD persistentă este pierdută. În această situație, puteți recupera aceste date folosind informațiile din graficul de descendență.

40) Care sunt formatele de fișiere acceptate de spark?

Spark acceptă formatul de fișier json, tsv, snappy, orc, rc etc.

41) Ce sunt acțiunile?

Acțiunea vă ajută să aduceți înapoi datele din RDD pe mașina locală. Execuția sa este rezultatul tuturor transformărilor create anterior.

42) Ce este Yarn?

Fire este una dintre cele mai importante caracteristici ale Apache Spark. Rularea scânteii pe Yarn face distribuție binară a scânteii, deoarece este construită pe suport Yarn.

43) Explicați Spark Executor

Un executor este un proces Spark care rulează calcule și stochează datele pe nodul lucrător. Sarcinile finale de către SparkContent sunt transferate executorului pentru executarea lor.

44) este necesar să instalați Spark pe toate nodurile în timp ce rulați aplicația Spark pe Yarn?

Nu, nu trebuie neapărat să instalați spark pe toate nodurile, deoarece spark rulează deasupra lui Yarn.

45) Ce este un nod de lucru în Apache Spark?

Un nod de lucru este orice nod care poate rula codul aplicației într-un cluster.

46) Cum puteți lansa joburi Spark în Hadoop MapReduce?

Spark în MapReduce permite utilizatorilor să ruleze toate tipurile de lucrări spark în MapReduce fără a fi nevoie să obțină drepturi de administrator ale aplicației respective.

47) Explicați procesul de declanșare a curățării automate în Spark pentru a gestiona metadatele acumulate.

Puteți declanșa curățări automate vizualizând parametrul 'spark.cleaner.ttf sau prin separarea lucrărilor de lungă durată în diferite loturi și scrierea rezultatelor intermediare pe disc.

48) Explicați utilizarea Blinkdb

BlinkDB este un instrument de motor de interogări care vă permite să executați interogări SQL pe volume uriașe de date și redă rezultatele interogărilor în barele de eroare semnificative.

49) Hoe Spark gestionează monitorizarea și înregistrarea în modul Standalone?

Da, o scânteie poate gestiona monitorizarea și înregistrarea în modul autonom, deoarece are o interfață de utilizator bazată pe web.

50) Cum puteți identifica dacă o anumită operație este Transformare sau Acțiune?

Puteți identifica operația pe baza tipului de returnare. Dacă tipul returnat nu este RDD, atunci operația este o acțiune. Totuși, dacă tipul de returnare este același cu RDD, atunci operația este transformare.

51) Puteți folosi Apache Spark pentru a analiza și a accesa datele stocate în bazele de date Cassandra?

Da, puteți utiliza Spark Cassandra Connector, care vă permite să accesați și să analizați datele stocate în Cassandra Database.

52) Precizați diferența dintre Spark SQL și Hql

SparkSQL este o componentă esențială a motorului spark Core. Acceptă SQL și Hive Query Language fără a-și modifica sintaxa.

Aceste întrebări de interviu vă vor ajuta, de asemenea, în viva (orale)

S-ar putea sa-ti placa: