Top 52 pitanja i odgovora za intervju za Apache Spark (2025.)

Pitanja za Spark intervju za početnike i iskusne

Ovdje su pitanja i odgovori na razgovoru za Apache Spark za brucoše, kao i za iskusne kandidate za Data Science koji će dobiti posao iz snova.


1) Što je Apache Spark?

Apache Spark je jednostavan za korištenje i fleksibilan okvir za obradu podataka. Iskra može zaokružiti Hadoop, samostalno ili u oblaku. Sposoban je procijeniti različite izvore podataka, što uključuje HDFS, Cassandra i druge.

Besplatno preuzimanje PDF-a: Pitanja i odgovori za intervju za Apache Spark


2) Objasnite Dsstream u odnosu na Apache Spark

Dstream je niz elastične distribuirane baze podataka koja predstavlja tok podataka. Možete stvoriti Dstream iz različitih izvora kao što su HDFS, Apache Flume, Apache Kafka, Itd


3) Navedite tri izvora podataka dostupnih u SparkSQL-u

Dostupni izvori podataka u SparkSQL-u su:


4) Navedite neke unutarnje demone koji se koriste u sparku?

Važni demoni koji se koriste u sparku su Blockmanager, Memestore, DAGscheduler, Driver, Worker, Executor, Tasks, itd.


5) Definirajte pojam 'Sparse Vector'.

Rijetki vektor je vektor koji ima dva paralelna niza, jedan za indekse, jedan za vrijednosti, koji se koristi za pohranjivanje entiteta koji nisu nula radi uštede prostora.

Pitanja za Spark intervju
Pitanja za Spark intervju

6) Navedite jezik koji podržava Apache Spark za razvoj aplikacija za velike podatke

Važna upotreba jezika za razvoj aplikacija za velike podatke je:

  • Java
  • Piton
  • R
  • Clojure
  • Skala

7) Koja je metoda za stvaranje podatkovnog okvira?

U Apache Sparku, podatkovni okvir može se stvoriti pomoću tablica u košnici i datoteka strukturiranih podataka.


8) Objasnite SchemaRDD

RDD koji se sastoji od objekta retka s informacijama o shemi o vrsti podataka u svakom stupcu naziva se SchemaRDD.


9) Što su akumulatori?

Akumulatori su varijable samo za pisanje. Inicijaliziraju se jednom i šalju radnicima. Ti radnici ažurirat će se na temelju zapisane logike, koja će se poslati natrag upravljačkom programu.


10) Koje su komponente Spark Ecosystema?

Važna komponenta Spark-a su:

  • SparkCore: To je osnovni stroj za veliku paralelnu i distribuiranu obradu podataka
  • Spark Streaming: Ova se komponenta koristi za strujanje podataka u stvarnom vremenu.
  • Iskra SQL: Integrira relacijsku obradu korištenjem Sparkovog API-ja za funkcionalno programiranje
  • GraphX: Omogućuje grafove i graf-paralelno izračunavanje
  • MLlib: Omogućuje vam izvođenje strojnog učenja u Apache Sparku

11) Navedite tri značajke korištenja Apache Sparka

Tri najvažnije značajke korištenja Apache Sparka su:

  1. Podrška za sofisticiranu analitiku
  2. Pomaže vam u integraciji s Hadoopom i postojećim Hadoop podacima
  3. Omogućuje vam pokretanje aplikacije u Hadoop klasteru, do 100 puta brže u memoriji i deset puta brže na disku.

12) Objasnite zadanu razinu paralelizma u Apache Sparku

Ako korisnik ne može odrediti, tada se broj particija smatra zadanom razinom paralelizma u Apache Sparku.


13) Navedite tri tvrtke koje koriste usluge Spark Streaminga

Tri poznate tvrtke koje koriste Spark Streaming usluge su:

  • Uber
  • Netflix
  • Pinterest

14) Što je Spark SQL?

Spark SQL je modul za strukturiranu obradu podataka gdje iskorištavamo prednosti SQL upita koji se izvode na toj bazi podataka.


15) Objasnite turpiju za parket

Paraquet je datoteka stupnog formata koju podržavaju mnogi drugi sustavi za obradu podataka. Spark SQL vam omogućuje izvođenje operacija čitanja i pisanja s datotekom Parquet.


16) Objasnite Spark Driver?

Spark Driver je program koji radi na glavnom čvoru stroja i deklarira transformacije i akcije na RDD-ovima podataka.


17) Kako možete pohraniti podatke u spark?

Spark je procesor koji nema mehanizam za pohranu podataka. Može dohvatiti podatke iz drugog mehanizma za pohranu kao što je HDFS, S3.


18) Objasnite korištenje API-ja sustava datoteka u Apache Sparku

Sustav datoteka API omogućuje vam čitanje podataka s raznih uređaja za pohranu kao što su HDFS, S3 ili lokalni Fileyste.


19) Koja je zadaća Spark Enginea

Spark Engine je koristan za planiranje, distribuciju i nadzor podatkovne aplikacije u klasteru.


20) Što je korisnik sparkContext?

SparkContent je ulazna točka za iskru. SparkContext vam omogućuje stvaranje RDD-ova koji pružaju različite načine miješanja podataka.


21) Kako možete implementirati strojno učenje u Spark?

MLif je svestrana biblioteka strojnog učenja koju daje Spark.


22) Možete li izvršiti obradu u stvarnom vremenu sa Spark SQL?

Obrada podataka u stvarnom vremenu nije moguća izravno. Međutim, moguće je registriranjem postojećeg RDD-a kao SQL tablice i pokretanjem SQL upita po prioritetu.


23) Koje su važne razlike između Apachea i Hadoopa

Parametar Apache Spark Hadoop
Brzina 100 puta brži u usporedbi s Hadoopom. Ima umjerenu brzinu.
Obrada Funkcionalnost skupne obrade u stvarnom vremenu. Nudi samo skupnu obradu.
Krivulja ucenja Lako Tvrd
interaktivnost Ima interaktivne načine rada Osim Pig and Hive, nema interaktivan način.

24) možete li pokrenuti Apache Spark na Apache Mesosu?

Da, možete pokrenuti Apache Spark na hardverskim klasterima kojima upravlja Mesos.


25) Objasnite particije

Particija je manja i logična podjela podataka. To je metoda za izvođenje logičkih jedinica podataka kako bi se ubrzao proces obrade.


26) Definirajte pojam 'Lazy Evolution' s obzirom na Apache Spark

Apache Spark odgađa svoju procjenu dok ne bude potrebna. Za transformacije, Spark ih dodaje u DAG izračuna i samo kada derive zahtijeva neke podatke.


27) Objasnite korištenje varijabli emitiranja

Najčešća upotreba varijabli emitiranja je:

  • Varijable emitiranja pomažu programeru da varijablu samo za čitanje drži u predmemoriji na svakom računalu umjesto da šalje njezinu kopiju sa zadacima.
  • Također ih možete koristiti da svakom čvoru date kopiju velikog ulaznog skupa podataka na učinkovit način.
  • Algoritmi emitiranja također vam pomažu smanjiti troškove komunikacije

28) Kako možete koristiti Akku sa Sparkom?

Spark koristi Akka korištenje za zakazivanje. Također koristi Akku za razmjenu poruka između radnika i majstora.


29) Koji temeljni struktura podataka od Spark

Podatkovni okvir je temeljna temeljna struktura podataka Spark-a.


30) Možete li koristiti Spark za ETL proces?

Da, možete koristiti iskru za ETL proces.


31) Čemu služi transformacija karte?

Transformacija karte na RDD-u proizvodi drugi RDD prevođenjem svakog elementa. Pomaže vam da prevedete svaki element izvršavanjem funkcije koju je dao korisnik.


32) Koji su nedostaci korištenja Spark-a?

Slijede neki od nedostataka korištenja Sparka:

  • Spark troši ogromnu količinu podataka u usporedbi s Hadoopom.
  • Ne možete pokrenuti sve na jednom čvoru budući da rad višestrukih klastera ne mora biti pouzdan.
  • Programerima je potrebna dodatna pažnja tijekom pokretanja njihove aplikacije u Sparku.
  • Spark streaming ne pruža podršku za kriterije prozora temeljene na zapisima.

33) Koje su uobičajene upotrebe Apache Spark?

  • Apache Spark se koristi za:
  • Interaktivno strojno učenje
  • Obrada toka
  • Analitika i obrada podataka
  • Obrada senzorskih podataka

34) Navedite razliku između funkcija persist() i cache().

Funkcija Persist() omogućuje korisniku da odredi razinu pohrane dok cache() koristi zadanu razinu pohrane.


35) Imenujte biblioteku Spark koja omogućuje pouzdano dijeljenje datoteka brzinom memorije u različitim okvirima klastera.

Tachyon je iskra biblioteka koja omogućuje pouzdano dijeljenje datoteka pri brzini memorije u različitim okvirima klastera.


36) Apache Spark je dobar za koju vrstu tehnika strojnog učenja?

Apache Spark idealan je za jednostavne algoritme strojnog učenja poput klasteriranja, regresije i klasifikacije.


37) Kako možete ukloniti element s kritičnim prisutnim u bilo kojem drugom Rdd is Apache iskri?

Kako biste uklonili elemente s ključem prisutnim u bilo kojem drugom rdd-u, trebate koristiti funkciju substractkey().


38) Čemu služe kontrolne točke u iskri?

Kontrolne točke omogućuju da program radi cijelo vrijeme. Štoviše, pomaže da bude otporan na kvarove bez obzira na logiku aplikacije.


39) Objasnite graf loze

Grafikon loze informacijsko računalo svaki RDD na zahtjev. Stoga, kad god se izgubi dio trajnog RDD-a. U toj situaciji možete oporaviti ove podatke pomoću podataka grafikona loze.


40) Koje formate datoteka podržava spark?

Spark podržava format datoteke json, tsv, snappy, orc, rc itd.


41) Što su radnje?

Akcija vam pomaže vratiti podatke iz RDD-a na lokalni stroj. Njegovo izvođenje je rezultat svih prethodno stvorenih transformacija.


42) Što je pređa?

Yarn je jedna od najvažnijih značajki Apache Spark. Running spark on Yarn čini binarnu distribuciju iskre jer je izgrađena na podršci za Yarn.


43) Objasnite Spark Executor

Izvršitelj je Spark proces koji pokreće proračune i pohranjuje podatke na radnom čvoru. Završni zadaci od strane SparkContenta prenose se izvršitelju na njihovo izvršenje.


44) je li potrebno instalirati Spark na sve čvorove tijekom pokretanja Spark aplikacije na Yarn?

Ne, ne morate nužno instalirati spark na sve čvorove jer spark radi preko Yarna.


45) Što je radni čvor u Apache Sparku?

Radni čvor je bilo koji čvor koji može pokrenuti aplikacijski kod u klasteru.


46) Kako možete pokrenuti Spark poslove unutar Hadoop MapReduce?

Spark u MapReduceu omogućuje korisnicima pokretanje svih vrsta spark poslova unutar MapReducea bez potrebe za dobivanjem administratorskih prava te aplikacije.


47) Objasnite postupak za pokretanje automatskog čišćenja u Sparku radi upravljanja akumuliranim metapodacima.

Automatsko čišćenje možete pokrenuti gledanjem parametra 'spark.cleaner.ttf' ili odvajanjem dugotrajnih poslova u različite skupine i zapisivanjem međurezultata na disk.


48) Objasnite korištenje Blinkdb-a

BlinkDB je alat za izradu upita koji vam omogućuje izvršavanje SQL upita na ogromnim količinama podataka i prikazuje rezultate upita u smislenim trakama pogrešaka.


49) Obrađuje li Hoe Spark nadzor i bilježenje u samostalnom načinu rada?

Da, spark može upravljati nadzorom i zapisivanjem u samostalnom načinu rada budući da ima korisničko sučelje temeljeno na webu.


50) Kako možete prepoznati je li određena operacija Transformacija ili Radnja?

Možete identificirati operaciju na temelju vrste povrata. Ako vrsta povrata nije RDD, tada je operacija akcija. Međutim, ako je tip povrata isti kao RDD, tada je operacija transformacija.


51) Možete li koristiti Apache Spark za analizu i pristup podacima pohranjenim u bazama podataka Cassandra?

Da, možete koristiti Spark Cassandra Connector koji vam omogućuje pristup i analizu podataka pohranjenih u bazi podataka Cassandra.


52) Navedite razliku između Spark SQL i Hql

SparkSQL je bitna komponenta na spark Core motoru. Podržava SQL i Hive Query Language bez mijenjanja sintakse.

Ova pitanja za intervju također će vam pomoći u vašem životu

Podijeli

Ostavi komentar

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena *