52 parasta Apache Spark -haastattelun kysymystä ja vastausta (2025)

Spark-haastattelukysymyksiä uusille ja kokeneille

Tässä Apache Spark -haastattelukysymyksiä ja vastauksia fuksilaisille sekä kokeneille Data Science -ehdokkaille saadakseen unelmatyönsä.

1) Mikä on Apache Spark?

Apache Spark on helppokäyttöinen ja joustava tietojenkäsittelykehys. Spark voi pyöristää Hadoop, itsenäisesti tai pilvessä. Se pystyy arvioimaan erilaisia tietolähteitä, mukaan lukien HDFS, Cassandra ja muut.

Ilmainen PDF-lataus: Apache Spark -haastattelun kysymyksiä ja vastauksia

2) Selitä Dsstream viittaamalla Apache Sparkiin

Dstream on joustavia hajautettuja tietokantoja, jotka edustavat tietovirtaa. Voit luoda Dstreamin useista lähteistä, kuten HDFS, Apache Flume, Apache Kafka, Jne

3) Nimeä kolme SparkSQL:ssä saatavilla olevaa tietolähdettä

SparkSQL:ssä saatavilla olevat tietolähteet ovat:

JSON aineistot
Hive pöydät
Parketti viila

4) Nimeä joitain kipinässä käytettyjä sisäisiä demoneita?

Tärkeitä kipinässä käytettyjä demoneita ovat Blockmanager, Memestore, DAGscheduler, Driver, Worker, Executor, Tasks jne.

5) Määrittele termi "harva vektori".

Harva vektori on vektori, jossa on kaksi rinnakkaista taulukkoa, yksi indekseille, toinen arvoille, joita käytetään nollasta poikkeavien entiteettien tallentamiseen tilan säästämiseksi.

6) Nimeä Apache Sparkin tukema kieli big data -sovellusten kehittämiseen

Tärkeää kielenkäyttöä big data -sovelluksen kehittämisessä ovat:

Jaava
Python
R
Clojure
Scala

7) Mikä on menetelmä Datakehyksen luomiseen?

Apache Sparkissa tietokehys voidaan luoda käyttämällä Hiven taulukoita ja strukturoituja datatiedostoja.

8) Selitä SchemaRDD

RDD:tä, joka koostuu riviobjektista, jossa on skeematietoja kunkin sarakkeen datatyypistä, kutsutaan SchemaRDD:ksi.

9) Mitä ovat akut?

Akut ovat vain kirjoitettavia muuttujia. Ne alustetaan kerran ja lähetetään työntekijöille. Nämä työntekijät päivittävät kirjoitetun logiikan perusteella, joka lähetetään takaisin ohjaimelle.

10) Mitkä ovat Spark Ecosystemin komponentit?

Tärkeä Spark-komponentti ovat:

Kipinäydin: Se on perusmoottori laajamittaiseen rinnakkais- ja hajautettuun tietojenkäsittelyyn
Spark Streaming: Tätä komponenttia käytetään reaaliaikaiseen tietojen suoratoistoon.
Kipinä SQL: Integroi relaatiokäsittelyn käyttämällä Sparkin toiminnallista ohjelmointisovellusliittymää
GraphX: Mahdollistaa kuvaajat ja kaavioiden rinnakkaislaskennan
MLlib: Mahdollistaa koneoppimisen Apache Sparkissa

11) Nimeä kolme Apache Sparkin käytön ominaisuutta

Kolme tärkeintä Apache Spark -ominaisuutta ovat:

Kehittyneen Analyticsin tuki
Auttaa sinua integroimaan Hadoopin ja olemassa olevien Hadoop-tietojen kanssa
Sen avulla voit ajaa sovellusta Hadoop-klusterissa, jopa 100 kertaa nopeammin muistissa ja kymmenen kertaa nopeammin levyllä.

12) Selitä oletusarvoinen rinnakkaisuuden taso Apache Sparkissa

Jos käyttäjä ei pysty määrittämään, osioiden lukumäärää pidetään oletusarvoisena samansuuntaisuuden tasona Apache Sparkissa.

13) Nimeä kolme yritystä, jotka käyttävät Spark Streaming -palveluita

Kolme tunnettua Spark Streaming -palveluita käyttävää yritystä ovat:

Uber
Netflix
Pinterest

14) Mikä Spark SQL on?

Spark SQL on strukturoidun tiedonkäsittelyn moduuli, jossa hyödynnämme kyseisessä tietokannassa suoritettavia SQL-kyselyitä.

15) Selitä parkettiviila

Paraquet on monien muiden tietojenkäsittelyjärjestelmien pylväsmuotoinen tiedostotuki. Spark SQL:n avulla voit suorittaa sekä luku- että kirjoitustoimintoja Parquet-tiedostolla.

16) Selitä Spark Driver?

Spark Driver on ohjelma, joka toimii koneen pääsolmussa ja ilmoittaa muunnoksia ja toimia data-RDD:llä.

17) Kuinka voit tallentaa tiedot kipinässä?

Spark on prosessointimoottori, jossa ei ole tallennusmoottoria. Se voi hakea tietoja toisesta tallennusmoottorista, kuten HDFS, S3.

18) Selitä tiedostojärjestelmän API:n käyttö Apache Sparkissa

Tiedostojärjestelmä API voit lukea tietoja eri tallennuslaitteista, kuten HDFS, S3 tai paikallinen Fileyste.

19) Mikä on Spark Enginen tehtävä

Spark Engine on hyödyllinen datasovelluksen ajoittamisessa, jakamisessa ja valvonnassa klusterissa.

20) Mikä on sparkContextin käyttäjä?

SparkContent on lähtökohta kipinöille. SparkContextin avulla voit luoda RDD-levyjä, jotka tarjosivat erilaisia tapoja siirtää tietoja.

21) Kuinka voit toteuttaa koneoppimisen Sparkissa?

MLif on Sparkin tarjoama monipuolinen koneoppimiskirjasto.

22) Voitko tehdä reaaliaikaista käsittelyä Spark SQL:llä?

Reaaliaikainen tietojenkäsittely ei ole mahdollista suoraan. Se on kuitenkin mahdollista rekisteröimällä olemassa oleva RDD SQL-taulukoksi ja käynnistämällä SQL-kyselyt ensisijaisesti.

23) Mitkä ovat tärkeät erot Apachen ja Hadoopin välillä?

Parametri	Apache Spark	Hadoop
Nopeus	100 kertaa nopeampi verrattuna Hadooppiin.	Sillä on kohtalainen nopeus.
Käsittely	Reaaliaikainen eräkäsittelytoiminto.	Se tarjoaa vain eräkäsittelyn.
Oppimiskäyrä	Helppo	Kova
vuorovaikutteisuus	Siinä on interaktiivisia tiloja	Pig and Hivea lukuun ottamatta sillä ei ole interaktiivista tapaa.

24) voitko käyttää Apache Sparkia Apache Mesosissa?

Kyllä, voit käyttää Apache Sparkia Mesosin hallinnoimissa laitteistoklustereissa.

25) Selitä osiot

Osio on pienempi ja looginen tiedonjako. Se on menetelmä tietojen loogisten yksiköiden johtamiseen käsittelyprosessin nopeuttamiseksi.

26) Määrittele termi "Lazy Evolution" viitaten Apache Sparkiin

Apache Spark viivyttää arviointiaan, kunnes sitä tarvitaan. Spark lisää muunnoksia varten ne DAG-laskentaan ja vain, kun johtamispyyntö pyytää tietoja.

27) Selitä lähetysmuuttujien käyttö

Yleisimmät lähetysmuuttujien käyttötavat ovat:

Lähetysmuuttujat auttavat ohjelmoijaa pitämään vain luku -muotoisen muuttujan välimuistissa jokaisessa koneessa sen sijaan, että toimittaisit sen kopion tehtävien kanssa.
Voit myös käyttää niitä antamaan jokaiselle solmulle kopion suuresta syötetietojoukosta tehokkaasti.
Lähetysalgoritmit auttavat myös vähentämään viestintäkustannuksia

28) Kuinka voit käyttää Akkaa Sparkilla?

Spark käyttää Akka-käyttöä aikataulutukseen. Se käyttää myös Akkaa työntekijöiden ja isäntien väliseen viestintään.

29) Mikä on perustavanlaatuinen tietorakenne Sparkista

Tietokehys on perustavanlaatuinen on Sparkin perustietorakenne.

30) Voitko käyttää Sparkia ETL-prosessiin?

Kyllä, voit käyttää kipinää ETL-prosessissa.

31) Mitä hyötyä karttamuunnoksesta on?

RDD:n karttamuunnos tuottaa toisen RDD:n kääntämällä jokaisen elementin. Se auttaa sinua kääntämään jokaisen elementin suorittamalla käyttäjän tarjoaman toiminnon.

32) Mitkä ovat Sparkin käytön haitat?

Seuraavassa on joitain Sparkin käytön haittoja:

Spark kuluttaa valtavan määrän dataa verrattuna Hadooppiin.
Kaikkea ei voi ajaa yhdessä solmussa, koska työhön on luotettava useiden klustereiden osalta.
Kehittäjät tarvitsevat erityistä varovaisuutta ajaessaan sovellusta Sparkissa.
Spark-suoratoisto ei tue tietuepohjaisia ikkunaehtoja.

33) Mitkä ovat Apache Sparkin yleiset käyttötavat?

Apache Sparkia käytetään:
Interaktiivinen koneoppiminen
Virran käsittely
Tietojen analysointi ja käsittely
Anturin tietojen käsittely

34) Kerro ero persist()- ja cache()-funktioiden välillä.

Persist()-funktion avulla käyttäjä voi määrittää tallennustason, kun taas cache() käyttää oletustasoa.

35) Nimeä Spark Library, joka mahdollistaa luotettavan tiedostojen jakamisen muistinopeudella eri klusterikehysten välillä.

Tachyon on kipinäkirjasto, joka mahdollistaa luotettavan tiedostojen jakamisen muistinopeudella eri klusterikehysten välillä.

36) Mihin koneoppimistekniikoihin Apache Spark sopii hyvin?

Apache Spark on ihanteellinen yksinkertaisiin koneoppimisalgoritmeihin, kuten klusterointiin, regressioon ja luokitteluun.

37) Kuinka voit poistaa elementin, jolla on kriittinen läsnäolo missä tahansa muussa Rdd is Apache -kipinässä?

Jos haluat poistaa elementit, joissa on avain missä tahansa muussa rdd:ssä, sinun on käytettävä substractkey()-funktiota.

38) Mitä hyötyä on tarkastuspisteistä kipinässä?

Tarkistuspisteiden avulla ohjelma voi toimia ympäri vuorokauden. Lisäksi se auttaa tekemään siitä kestävän vikoja vastaan sovelluslogiikasta riippumatta.

39) Selitä linjakaavio

Linjakuvaajan tietotietokone kukin RDD pyynnöstä. Siksi aina, kun osa jatkuvasta RDD:stä katoaa. Tässä tilanteessa voit palauttaa nämä tiedot käyttämällä linjakaavion tietoja.

40) Mitä tiedostomuotoja spark tukee?

Spark tukee tiedostomuotoja json, tsv, snappy, orc, rc jne.

41) Mitä ovat toimet?

Action auttaa sinua palauttamaan tiedot RDD:stä paikalliselle koneelle. Sen suoritus on kaikkien aiemmin luotujen muunnosten tulos.

42) Mikä on lanka?

Lanka on yksi Apache Sparkin tärkeimmistä ominaisuuksista. Juokseva kipinä langalla mahdollistaa kipinän binaarisen jakautumisen, koska se on rakennettu langan tuelle.

43) Selitä Spark Executor

Suoritin on Spark-prosessi, joka suorittaa laskelmia ja tallentaa tiedot työntekijäsolmuun. SparkContentin lopulliset tehtävät siirretään toteuttajalle niiden suorittamista varten.

44) Onko Spark asennettava kaikkiin solmuihin, kun Spark-sovellus on käynnissä Yarnissa?

Ei, sinun ei välttämättä tarvitse asentaa kipinää kaikkiin solmuihin, koska kipinä juoksee langan päällä.

45) Mikä on työntekijäsolmu Apache Sparkissa?

Työntekijäsolmu on mikä tahansa solmu, joka voi suorittaa sovelluskoodin klusterissa.

46) Kuinka voit käynnistää Spark-työt Hadoop MapReducessa?

Spark in MapReduce antaa käyttäjille mahdollisuuden suorittaa kaikenlaisia kipinätyötä MapReducen sisällä ilman, että tarvitsee hankkia kyseisen sovelluksen järjestelmänvalvojan oikeuksia.

47) Selitä prosessi automaattisen puhdistuksen käynnistämiseksi Sparkissa kerääntyneiden metatietojen hallitsemiseksi.

Voit käynnistää automaattiset siivoukset näkemällä parametrin 'spark.cleaner.ttf tai jakamalla pitkään käynnissä olevat työt eri eriin ja kirjoittamalla välitulokset levylle.

48) Selitä Blinkdb:n käyttö

BlinkDB on kyselykonetyökalu, jonka avulla voit suorittaa SQL-kyselyitä suurille tietomäärille ja tuottaa kyselytulokset merkityksellisille virhepalkeille.

49) Hoe Spark hoitaa monitoroinnin ja kirjaamisen itsenäisessä tilassa?

Kyllä, kipinä pystyy käsittelemään valvontaa ja kirjautumista erillisessä tilassa, koska sillä on verkkopohjainen käyttöliittymä.

50) Kuinka voit tunnistaa, onko tietty operaatio Transformaatio vai Toimi?

Voit tunnistaa toiminnon palautustyypin perusteella. Jos palautustyyppi ei ole RDD, toiminto on toiminto. Jos palautustyyppi on kuitenkin sama kuin RDD, toiminto on muunnos.

51) Voitko käyttää Apache Sparkia Cassandra-tietokantoihin tallennettujen tietojen analysointiin ja käyttämiseen?

Kyllä, voit käyttää Spark Cassandra Connectoria, jonka avulla voit käyttää ja analysoida Cassandra-tietokantaan tallennettuja tietoja.

52) Ilmoita ero Spark SQL:n ja Hql:n välillä

SparkSQL on olennainen osa Spark Core -moottoria. Se tukee SQL- ja Hive-kyselykieltä muuttamatta sen syntaksia.

Nämä haastattelukysymykset auttavat myös vivassasi (suullinen)

Saatat tykätä: