Topp 52 Apache Spark-intervjufrågor och svar (2025)

Spark Intervjufrågor för nybörjare och erfarna

Här är Apache Spark-intervjufrågor och svar för nybörjare såväl som erfarna Data Science-kandidater för att få sitt drömjobb.

1) Vad är Apache Spark?

Apache Spark är lättanvänt och flexibelt ramverk för databehandling. Gnistan kan runda på Hadoop, fristående eller i molnet. Det är kapabelt att bedöma olika datakällor, som inkluderar HDFS, Cassandra och andra.

Gratis PDF-nedladdning: Apache Spark-intervjufrågor och svar

2) Förklara Dsstream med hänvisning till Apache Spark

Dstream är en sekvens av elastisk distribuerad databas som representerar en dataström. Du kan skapa Dstream från olika källor som HDFS, Apache Flume, Apache kafkaEtc.

3) Nämn tre datakällor tillgängliga i SparkSQL

Det finns tillgängliga datakällor i SparkSQL:

JSON dataset
Bikupa Tabellerna
Parkettfil

4) Nämn några interna demoner som används i spark?

Viktiga demoner som används i spark är Blockmanager, Memestore, DAGscheduler, Driver, Worker, Executor, Tasks, etc.

5) Definiera termen "Sparse Vector".

Gles vektor är en vektor som har två parallella arrayer, en för index, en för värden, som används för att lagra enheter som inte är noll för att spara utrymme.

6) Namnge språket som stöds av Apache Spark för att utveckla big data-applikationer

Viktig språkanvändning för att utveckla big data-applikationer är:

java
Python
R
Clojure
Skala

7) Vad är metoden för att skapa en dataram?

I Apache Spark kan en dataram skapas med hjälp av tabeller i Hive och strukturerade datafiler.

8) Förklara SchemaRDD

En RDD som består av radobjekt med schemainformation om typen av data i varje kolumn kallas SchemaRDD.

9) Vad är ackumulatorer?

Ackumulatorer är skrivbara variabler. De initieras en gång och skickas till arbetarna. Dessa arbetare kommer att uppdatera baserat på logiken som skrivits, som skickas tillbaka till drivrutinen.

10) Vilka är komponenterna i Spark Ecosystem?

En viktig komponent i Spark är:

SparkCore: Det är en basmotor för storskalig parallell och distribuerad databehandling
Spark Streaming: Denna komponent används för dataströmning i realtid.
Gnista SQL: Integrerar relationsbehandling genom att använda Sparks funktionella programmerings-API
GraphX: Tillåter grafer och grafparallell beräkning
MLlib: Låter dig utföra maskininlärning i Apache Spark

11) Nämn tre funktioner för att använda Apache Spark

De tre viktigaste funktionerna för att använda Apache Spark är:

Stöd för sofistikerad analys
Hjälper dig att integrera med Hadoop och befintliga Hadoop-data
Det låter dig köra en applikation i Hadoop-kluster, upp till 100 gånger snabbare i minnet och tio gånger snabbare på disk.

12) Förklara standardnivån för parallellism i Apache Spark

Om användaren inte kan specificera, betraktas antalet partitioner som standardnivå för parallellitet i Apache Spark.

13) Nämn tre företag som använder Spark Streaming-tjänster

Tre kända företag som använder Spark Streaming-tjänster är:

Uber
Netflix
Pinterest

14) Vad är Spark SQL?

Spark SQL är en modul för strukturerad databehandling där vi drar fördel av SQL-frågor som körs på den databasen.

15) Förklara Parkettfil

Paraquet är ett filformat i kolumnformat som stöds av många andra databehandlingssystem. Spark SQL låter dig utföra både läs- och skrivoperationer med Parquet-fil.

16) Förklara Spark Driver?

Spark Driver är programmet som körs på huvudnoden på maskinen och deklarerar transformationer och åtgärder på data-RDD.

17) Hur kan du lagra data i gnista?

Spark är en processmotor som inte har någon lagringsmotor. Den kan hämta data från en annan lagringsmotor som HDFS, S3.

18) Förklara användningen av filsystems API i Apache Spark

Filsystem API låter dig läsa data från olika lagringsenheter som HDFS, S3 eller lokala Fileyste.

19) Vad är Spark Engines uppgift

Spark Engine är till hjälp för att schemalägga, distribuera och övervaka dataapplikationen över klustret.

20) Vad är användaren av sparkContext?

SparkContent är ingången till gnista. SparkContext låter dig skapa RDD:er som tillhandahåller olika sätt att churna data.

21) Hur kan du implementera maskininlärning i Spark?

MLif är ett mångsidigt maskininlärningsbibliotek som ges av Spark.

22) Kan du göra realtidsbearbetning med Spark SQL?

Databehandling i realtid är inte möjlig direkt. Det är dock möjligt genom att registrera befintlig RDD som en SQL-tabell och trigga SQL-frågorna med prioritet.

23) Vilka är de viktiga skillnaderna mellan Apache och Hadoop

Parameter	Apache Spark	Hadoop
Fart	100 gånger snabbare jämfört med Hadoop.	Den har måttlig hastighet.
Bearbetning	Funktionalitet för batchbearbetning i realtid.	Den erbjuder endast batchbearbetning.
Inlärningskurva	Easy	Hård
Interaktivitet	Den har interaktiva lägen	Förutom Pig and Hive har den inget interaktivt sätt.

24) kan du köra Apache Spark på Apache Mesos?

Ja, du kan köra Apache Spark på maskinvaruklustren som hanteras av Mesos.

25) Förklara partitioner

Partition är en mindre och logisk uppdelning av data. Det är metoden för att härleda logiska enheter av data för att påskynda bearbetningsprocessen.

26) Definiera termen "Lazy Evolution" med hänvisning till Apache Spark

Apache Spark fördröjer sin utvärdering tills den behövs. För transformationerna lägger Spark till dem i en DAG för beräkning och endast när härleda begär vissa data.

27) Förklara användningen av broadcast-variabler

Den vanligaste användningen av sändningsvariabler är:

Broadcast-variabler hjälper programmeraren att hålla en skrivskyddad variabel cachelagrad på varje maskin istället för att skicka en kopia av den med uppgifter.
Du kan också använda dem för att ge varje nod en kopia av en stor indatauppsättning på ett effektivt sätt.
Sändningsalgoritmer hjälper dig också att minska kommunikationskostnaderna

28) Hur kan du använda Akka med Spark?

Spark använder Akka för schemaläggning. Den använder också Akka för meddelanden mellan arbetarna och mästarna.

29) Vilket är det grundläggande datastruktur av Spark

Dataramen är grundläggande är Sparks grundläggande datastruktur.

30) Kan du använda Spark för ETL-processen?

Ja, du kan använda gnista för ETL-processen.

31) Vad är användningen av karttransformation?

Karttransformation på en RDD producerar en annan RDD genom att översätta varje element. Det hjälper dig att översätta varje element genom att utföra funktionen som tillhandahålls av användaren.

32) Vilka är nackdelarna med att använda Spark?

Följande är några av nackdelarna med att använda Spark:

Spark förbrukar en enorm mängd data jämfört med Hadoop.
Du kan inte köra allt på en enda nod eftersom arbete måste vara misstroende över flera kluster.
Utvecklare behöver extra försiktighet när de kör sin applikation i Spark.
Spark-streaming ger inte stöd för postbaserade fönsterkriterier.

33) Vilka är vanliga användningsområden för Apache Spark?

Apache Spark används för:
Interaktiv maskininlärning
Strömbehandling
Dataanalys och bearbetning
Sensordatabehandling

34) Ange skillnaden mellan funktionerna persist() och cache().

Funktionen Persist() låter användaren ange lagringsnivån medan cache() använder standardlagringsnivån.

35) Namnge Spark Library som tillåter tillförlitlig fildelning med minneshastighet över olika klusterramverk.

Tachyon är ett gnistbibliotek som tillåter tillförlitlig fildelning med minneshastighet över olika klusterramverk.

36) Apache Spark passar bra för vilken typ av maskininlärningsteknik?

Apache Spark är idealisk för enkla maskininlärningsalgoritmer som klustring, regression och klassificering.

37) Hur kan du ta bort elementet med en kritisk närvarande i någon annan Rdd är Apache-gnista?

För att ta bort elementen med en nyckel som finns i någon annan rdd, måste du använda substractkey()-funktionen.

38) Vad är användningen av kontrollpunkter i gnista?

Kontrollpunkter gör att programmet kan köras dygnet runt. Dessutom hjälper det till att göra det motståndskraftigt mot misslyckanden oavsett applikationslogik.

39) Förklara linjediagram

Linjediagram information dator varje RDD på begäran. Därför, närhelst en del av beständig RDD går förlorad. I den situationen kan du återställa dessa data med hjälp av information om linjediagram.

40) Vilka filformat stöds av spark?

Spark stöder filformaten json, tsv, snappy, orc, rc, etc.

41) Vad är åtgärder?

Action hjälper dig att ta tillbaka data från RDD till den lokala maskinen. Dess utförande är resultatet av alla tidigare skapade transformationer.

42) Vad är garn?

Garn är en av de viktigaste egenskaperna hos Apache Spark. Löpande gnista på garn gör binär distribution av gnista eftersom den är byggd på garnstöd.

43) Förklara Spark Executor

En exekutor är en Spark-process som kör beräkningar och lagrar data på arbetarnoden. De slutliga uppgifterna av SparkContent överförs till utföraren för utförande.

44) är det nödvändigt att installera Spark på alla noder när du kör Spark-applikationen på Yarn?

Nej, du behöver inte nödvändigtvis installera gnista på alla noder eftersom gnistan rinner ovanpå garn.

45) Vad är en arbetarnod i Apache Spark?

En arbetarnod är vilken nod som helst som kan köra applikationskoden i ett kluster.

46) Hur kan du lansera Spark-jobb i Hadoop MapReduce?

Spark i MapReduce tillåter användare att köra alla typer av sparkjobb i MapReduce utan att behöva erhålla administratörsrättigheter för den applikationen.

47) Förklara processen för att utlösa automatisk rensning i Spark för att hantera ackumulerad metadata.

Du kan utlösa automatiska rensningar genom att se parametern 'spark.cleaner.ttf eller genom att dela upp de långa jobben i olika batcher och skriva mellanresultaten till disken.

48) Förklara användningen av Blinkdb

BlinkDB är ett frågemotorverktyg som låter dig köra SQL-frågor på stora datavolymer och återger frågeresultat i de meningsfulla felfälten.

49) Hanterar Hoe Spark övervakning och loggning i fristående läge?

Ja, en gnista kan hantera övervakning och loggning i fristående läge eftersom den har ett webbaserat användargränssnitt.

50) Hur kan du identifiera om en given operation är Transformation eller Action?

Du kan identifiera operationen baserat på returtypen. Om returtypen inte är RDD är operationen en åtgärd. Men om returtypen är densamma som RDD, är operationen transformation.

51) Kan du använda Apache Spark för att analysera och komma åt data lagrade i Cassandra-databaser?

Ja, du kan använda Spark Cassandra Connector som låter dig komma åt och analysera data som lagras i Cassandra Database.

52) Ange skillnaden mellan Spark SQL och Hql

SparkSQL är en viktig komponent i spark Core-motorn. Den stöder SQL och Hive Query Language utan att ändra syntaxen.

Dessa intervjufrågor kommer också att hjälpa dig i din viva (orals)

Du kanske gillar: