Topp 52 Apache Spark-intervjuspørsmål og -svar (2025)
Spark-intervjuspørsmål for ferskinger og erfarne
Her er Apache Spark-intervjuspørsmål og svar for ferskere så vel som erfarne Data Science-kandidater for å få drømmejobben.
1) Hva er Apache Spark?
Apache Spark er enkelt å bruke og fleksibelt databehandlingsrammeverk. Gnist kan runde på Hadoop, frittstående eller i skyen. Den er i stand til å vurdere ulike datakilder, som inkluderer HDFS, Cassandra og andre.
Gratis PDF-nedlasting: Apache Spark-intervjuspørsmål og svar
2) Forklar Dsstream med referanse til Apache Spark
Dstream er en sekvens av spenstig distribuert database som representerer en strøm av data. Du kan lage Dstream fra forskjellige kilder som HDFS, Apache Flume, Apache KafkaOsv
3) Nevn tre datakilder som er tilgjengelige i SparkSQL
Datakilden som er tilgjengelig i SparkSQL er:
4) Nevn noen interne demoner som brukes i spark?
Viktige demoner som brukes i spark er Blockmanager, Memestore, DAGscheduler, Driver, Worker, Executor, Tasks, etc.
5) Definer begrepet "Sparse Vector."
Sparse vektor er en vektor som har to parallelle matriser, en for indekser, en for verdier, som brukes til å lagre enheter som ikke er null for å spare plass.
6) Nevn språket som støttes av Apache Spark for utvikling av big data-applikasjoner
Viktig språkbruk for å utvikle big data-applikasjoner er:
- Java
- Python
- R
- Clojure
- Skala
7) Hva er metoden for å lage en dataramme?
I Apache Spark kan en dataramme opprettes ved hjelp av tabeller i Hive og strukturerte datafiler.
8) Forklar SchemaRDD
En RDD som består av radobjekt med skjemainformasjon om typen data i hver kolonne kalles SchemaRDD.
9) Hva er akkumulatorer?
Akkumulatorer er de skrivebare variablene. De initialiseres én gang og sendes til arbeiderne. Disse arbeiderne vil oppdatere basert på logikken som er skrevet, som vil sende tilbake til driveren.
10) Hva er komponentene i Spark Ecosystem?
En viktig komponent i Spark er:
- SparkCore: Det er en basismotor for storskala parallell og distribuert databehandling
- Spark Streaming: Denne komponenten brukes til datastrømming i sanntid.
- Spark SQL: Integrerer relasjonsbehandling ved å bruke Sparks funksjonelle programmerings-API
- GraphX: Tillater grafer og grafparallell beregning
- MLlib: Lar deg utføre maskinlæring i Apache Spark
11) Nevn tre funksjoner ved bruk av Apache Spark
De tre viktigste funksjonene ved bruk av Apache Spark er:
- Støtte for sofistikert analyse
- Hjelper deg med å integrere med Hadoop og eksisterende Hadoop-data
- Den lar deg kjøre en applikasjon i Hadoop cluster, opptil 100 ganger raskere i minnet og ti ganger raskere på disk.
12) Forklar standardnivået for parallellisme i Apache Spark
Hvis brukeren ikke kan spesifisere, anses antall partisjoner som standardnivå for parallellitet i Apache Spark.
13) Nevn tre selskaper som bruker Spark Streaming-tjenester
Tre kjente selskaper som bruker Spark Streaming-tjenester er:
- Uber
- Netflix
14) Hva er Spark SQL?
Spark SQL er en modul for strukturert databehandling der vi drar nytte av SQL-spørringer som kjører på den databasen.
15) Forklar Parkettfil
Paraquet er filstøtte i kolonneformat av mange andre databehandlingssystemer. Spark SQL lar deg utføre både lese- og skriveoperasjoner med Parquet-fil.
16) Forklar Spark Driver?
Spark Driver er programmet som kjører på hovednoden til maskinen og deklarerer transformasjoner og handlinger på data RDD-er.
17) Hvordan kan du lagre dataene i gnist?
Spark er en prosesseringsmotor som ikke har noen lagringsmotor. Den kan hente data fra en annen lagringsmotor som HDFS, S3.
18) Forklar bruken av filsystem-API i Apache Spark
Filsystem API lar deg lese data fra ulike lagringsenheter som HDFS, S3 eller lokale Fileyste.
19) Hva er oppgaven til Spark Engine
Spark Engine er nyttig for å planlegge, distribuere og overvåke dataapplikasjonen på tvers av klyngen.
20) Hva er brukeren av sparkContext?
SparkContent er inngangspunktet til gnist. SparkContext lar deg lage RDD-er som ga forskjellige måter å churne data på.
21) Hvordan kan du implementere maskinlæring i Spark?
MLif er et allsidig maskinlæringsbibliotek gitt av Spark.
22) Kan du utføre sanntidsbehandling med Spark SQL?
Sanntidsdatabehandling er ikke mulig direkte. Det er imidlertid mulig ved å registrere eksisterende RDD som en SQL-tabell og utløse SQL-spørringene på prioritet.
23) Hva er de viktige forskjellene mellom Apache og Hadoop
Parameter | Apache Spark | Hadoop |
---|---|---|
Speed | 100 ganger raskere sammenlignet med Hadoop. | Den har moderat hastighet. |
i prosess | Sanntids batchbehandlingsfunksjonalitet. | Den tilbyr kun batchbehandling. |
Læringskurve | Lett | Hard |
interaktivitet | Den har interaktive moduser | Bortsett fra Pig and Hive, har den ikke en interaktiv måte. |
24) kan du kjøre Apache Spark på Apache Mesos?
Ja, du kan kjøre Apache Spark på maskinvareklyngene som administreres av Mesos.
25) Forklar partisjoner
Partisjon er en mindre og logisk inndeling av data. Det er metoden for å utlede logiske enheter av data for å fremskynde behandlingsprosessen.
26) Definer begrepet "Lazy Evolution" med henvisning til Apache Spark
Apache Spark utsetter evalueringen til den er nødvendig. For transformasjonene legger Spark dem til en DAG for beregning og bare når de utleder forespørsel om noen data.
27) Forklar bruken av kringkastingsvariabler
Den vanligste bruken av kringkastingsvariabler er:
- Kringkastingsvariabler hjelper programmerer å holde en skrivebeskyttet variabel bufret på hver maskin i stedet for å sende en kopi av den med oppgaver.
- Du kan også bruke dem til å gi hver node en kopi av et stort input-datasett på en effektiv måte.
- Kringkastingsalgoritmer hjelper deg også med å redusere kommunikasjonskostnadene
28) Hvordan kan du bruke Akka med Spark?
Spark bruker Akka-bruk til planlegging. Den bruker også Akka for meldinger mellom arbeidere og mestere.
29) Hvilken grunnleggende data struktur av Spark
Dataramme er grunnleggende er den grunnleggende datastrukturen til Spark.
30) Kan du bruke Spark for ETL-prosessen?
Ja, du kan bruke gnist for ETL-prosessen.
31) Hva er bruken av karttransformasjon?
Karttransformasjon på en RDD produserer en annen RDD ved å oversette hvert element. Den hjelper deg med å oversette hvert element ved å utføre funksjonen som er gitt av brukeren.
32) Hva er ulempene ved å bruke Spark?
Følgende er noen av ulempene ved å bruke Spark:
- Spark bruker en enorm mengde data sammenlignet med Hadoop.
- Du kan ikke kjøre alt på en enkelt node, da arbeid må være mistrodd over flere klynger.
- Utviklere trenger ekstra forsiktighet mens de kjører applikasjonen sin i Spark.
- Spark-streaming gir ikke støtte for rekordbaserte vinduskriterier.
33) Hva er vanlige bruksområder for Apache Spark?
- Apache Spark brukes til:
- Interaktiv maskinlæring
- Stream behandling
- Dataanalyse og prosessering
- Sensordatabehandling
34) Angi forskjellen mellom persist() og cache() funksjoner.
Persist()-funksjonen lar brukeren spesifisere lagringsnivået mens cache() bruker standard lagringsnivå.
35) Gi navnet Spark Library som tillater pålitelig fildeling med minnehastighet på tvers av forskjellige klyngreammer.
Tachyon er et gnistbibliotek som tillater pålitelig fildeling med minnehastighet på tvers av ulike klyngreammer.
36) Apache Spark passer godt for hvilken type maskinlæringsteknikker?
Apache Spark er ideell for enkle maskinlæringsalgoritmer som klynging, regresjon og klassifisering.
37) Hvordan kan du fjerne elementet med en kritisk tilstedeværelse i en hvilken som helst annen Rdd er Apache-gnist?
For å fjerne elementene med en nøkkel tilstede i en hvilken som helst annen rdd, må du bruke substractkey()-funksjonen.
38) Hva er bruken av sjekkpunkter i gnist?
Sjekkpunkter lar programmet kjøre hele døgnet. Dessuten bidrar det til å gjøre den motstandsdyktig mot feil uavhengig av applikasjonslogikk.
39) Forklar avstamningsgraf
Lineage graf informasjon datamaskin hver RDD på forespørsel. Derfor, når en del av vedvarende RDD går tapt. I den situasjonen kan du gjenopprette disse dataene ved å bruke avstamningsgrafinformasjon.
40) Hvilke filformater støttes av spark?
Spark støtter filformatene json, tsv, snappy, orc, rc, etc.
41) Hva er handlinger?
Action hjelper deg med å bringe tilbake dataene fra RDD til den lokale maskinen. Utførelsen er resultatet av alle tidligere opprettede transformasjoner.
42) Hva er garn?
Garn er en av de viktigste egenskapene til Apache Spark. Løpende gnist på garn gir binær fordeling av gnist ettersom den er bygget på garnstøtte.
43) Forklar Spark Executor
En eksekutør er en Spark-prosess som kjører beregninger og lagrer dataene på arbeidernoden. De siste oppgavene av SparkContent overføres til utførende for utførelse.
44) er det nødvendig å installere Spark på alle noder mens du kjører Spark-applikasjonen på Yarn?
Nei, du trenger ikke nødvendigvis å installere gnist på alle noder da gnisten går på toppen av garn.
45) Hva er en arbeidernode i Apache Spark?
En arbeidernode er en hvilken som helst node som kan kjøre applikasjonskoden i en klynge.
46) Hvordan kan du lansere Spark-jobber i Hadoop MapReduce?
Spark i MapReduce lar brukere kjøre alle slags gnistjobber inne i MapReduce uten å måtte skaffe administratorrettigheter for det programmet.
47) Forklar prosessen for å utløse automatisk opprydding i Spark for å administrere akkumulerte metadata.
Du kan utløse automatiske oppryddinger ved å se parameteren 'spark.cleaner.ttf eller ved å dele de langvarige jobbene i ulike grupper og skrive mellomresultatene til disken.
48) Forklar bruken av Blinkdb
BlinkDB er et søkemotorverktøy som lar deg utføre SQL-spørringer på store datavolumer og gjengir spørringsresultater i de meningsfulle feillinjene.
49) Håndterer Hoe Spark overvåking og logging i frittstående modus?
Ja, en gnist kan håndtere overvåking og logging i frittstående modus da den har et nettbasert brukergrensesnitt.
50) Hvordan kan du identifisere om en gitt operasjon er transformasjon eller handling?
Du kan identifisere operasjonen basert på returtypen. Hvis returtypen ikke er RDD, er operasjonen en handling. Imidlertid, hvis returtypen er den samme som RDD, er operasjonen transformasjon.
51) Kan du bruke Apache Spark til å analysere og få tilgang til data som er lagret i Cassandra-databaser?
Ja, du kan bruke Spark Cassandra Connector som lar deg få tilgang til og analysere data som er lagret i Cassandra Database.
52) Angi forskjellen mellom Spark SQL og Hql
SparkSQL er en viktig komponent på spark Core-motoren. Den støtter SQL og Hive Query Language uten å endre syntaksen.
Disse intervjuspørsmålene vil også hjelpe i din viva(orals)