Top 50 Apache Spark-interviewvragen en antwoorden (2024)

Spark sollicitatievragen voor eerstejaars en ervaren

Hier zijn sollicitatievragen en antwoorden voor Apache Spark voor zowel eerstejaars als ervaren Data Science-kandidaten om hun droombaan te krijgen.


1) Wat is Apache Spark?

Apache Spark is een eenvoudig te gebruiken en flexibel raamwerk voor gegevensverwerking. De vonk kan doorgaan Hadoop, standalone of in de cloud. Het is in staat diverse gegevensbronnen te beoordelen, waaronder HDFS, Cassandra en andere.

Gratis pdf-download: Apache Spark-interviewvragen en antwoorden


2) Leg Dsstream uit met verwijzing naar Apache Spark

Dstream is een reeks veerkrachtige gedistribueerde databases die een gegevensstroom vertegenwoordigen. U kunt Dstream maken vanuit verschillende bronnen, zoals HDFS, Apache Flume, Apache Kafka, Etc.


3) Noem drie gegevensbronnen die beschikbaar zijn in SparkSQL

De gegevensbronnen die beschikbaar zijn in SparkSQL zijn:


4) Noem enkele interne daemons die in Spark worden gebruikt?

Belangrijke daemon die in Spark worden gebruikt, zijn Blockmanager, Memestore, DAGscheduler, Driver, Worker, Executor, Tasks, enz.


5) Definieer de term 'Sparse Vector'.

Sparse vector is een vector met twee parallelle arrays, één voor indices en één voor waarden, die wordt gebruikt voor het opslaan van niet-nul entiteiten om ruimte te besparen.

Spark-interviewvragen
Spark-interviewvragen

6) Noem de taal die door Apache Spark wordt ondersteund voor het ontwikkelen van big data-applicaties

Belangrijk taalgebruik voor het ontwikkelen van big data-applicaties zijn:

  • Java
  • Python
  • R
  • Clojure
  • Scala

7) Wat is de methode om een ​​dataframe te maken?

In Apache Spark kan een dataframe worden gemaakt met behulp van tabellen in Hive- en gestructureerde gegevensbestanden.


8) Leg SchemaRDD uit

Een RDD die bestaat uit een rijobject met schema-informatie over het type gegevens in elke kolom, wordt SchemaRDD genoemd.


9) Wat zijn accu's?

Accumulatoren zijn de alleen-schrijfvariabelen. Ze worden één keer geïnitialiseerd en naar de werknemers verzonden. Deze werkers worden bijgewerkt op basis van de geschreven logica en worden teruggestuurd naar de bestuurder.


10) Wat zijn de componenten van Spark Ecosystem?

Een belangrijk onderdeel van Spark zijn:

  • Vonkkern: Het is een basismotor voor grootschalige parallelle en gedistribueerde gegevensverwerking
  • Spark-streaming: Dit onderdeel wordt gebruikt voor realtime gegevensstreaming.
  • Vonk SQL: Integreert relationele verwerking door gebruik te maken van de functionele programmeer-API van Spark
  • GrafiekX: Maakt grafieken en parallelle berekeningen mogelijk
  • MLlib: Hiermee kunt u machine learning uitvoeren in Apache Spark

11) Noem drie kenmerken van het gebruik van Apache Spark

De drie belangrijkste kenmerken van het gebruik van Apache Spark zijn:

  1. Ondersteuning voor geavanceerde analyses
  2. Helpt u bij de integratie met Hadoop en bestaande Hadoop-gegevens
  3. Hiermee kunt u een applicatie in het Hadoop-cluster uitvoeren, tot 100 keer sneller in het geheugen en tien keer sneller op schijf.

12) Leg het standaardniveau van parallellisme in Apache Spark uit

Als de gebruiker dit niet kan opgeven, wordt het aantal partities beschouwd als het standaardniveau van parallellisme in Apache Spark.


13) Noem drie bedrijven die gebruik maken van Spark Streaming-diensten

Drie bekende bedrijven die Spark Streaming-diensten gebruiken zijn:

  • Uber
  • Netflix
  • Pinterest

14) Wat is Spark SQL?

Spark SQL is een module voor gestructureerde gegevensverwerking waarbij we profiteren van SQL-query's die op die database draaien.


15) Leg het Parquet-bestand uit

Paraquet is een bestand in kolomformaat dat door veel andere gegevensverwerkingssystemen wordt ondersteund. Met Spark SQL kunt u zowel lees- als schrijfbewerkingen uitvoeren met het Parquet-bestand.


16) Leg Spark Driver uit?

Spark Driver is het programma dat op het hoofdknooppunt van de machine draait en transformaties en acties op gegevens-RDD's declareert.


17) Hoe kunt u de gegevens in Spark opslaan?

Spark is een verwerkingsengine die geen opslagengine heeft. Het kan gegevens ophalen van een andere opslagengine zoals HDFS, S3.


18) Leg het gebruik van de bestandssysteem-API in Apache Spark uit

Bestandssysteem API stelt u in staat gegevens te lezen van verschillende opslagapparaten zoals HDFS, S3 of lokaal Fileyste.


19) Wat is de taak van Spark Engine

Spark Engine is nuttig voor het plannen, distribueren en monitoren van de datatoepassing binnen het cluster.


20) Wat is de gebruiker van sparkContext?

SparkContent is het toegangspunt tot Spark. Met SparkContext kunt u RDD's maken die verschillende manieren bieden om gegevens te karnen.


21) Hoe kun je machine learning in Spark implementeren?

MLif is een veelzijdige machine learning-bibliotheek van Spark.


22) Kun je realtime verwerking uitvoeren met Spark SQL?

Real-time gegevensverwerking is niet direct mogelijk. Het is echter mogelijk door bestaande RDD te registreren als een SQL-tabel en de SQL-query's op prioriteit te activeren.


23) Wat zijn de belangrijke verschillen tussen Apache en Hadoop

Parameter Apache Spark Hadoop
Speed 100 keer sneller vergeleken met Hadoop. Het heeft een gemiddelde snelheid.
In behandeling Realtime batchverwerkingsfunctionaliteit. Het biedt alleen batchverwerking.
Leercurve Eenvoudige Hard
Interactiviteit Het heeft interactieve modi Afgezien van Pig and Hive is het niet interactief.

24) Kunt u Apache Spark op Apache Mesos uitvoeren?

Ja, u kunt Apache Spark uitvoeren op de hardwareclusters die door Mesos worden beheerd.


25) Leg partities uit

Partitie is een kleinere en logische verdeling van gegevens. Het is de methode voor het afleiden van logische gegevenseenheden om het verwerkingsproces te versnellen.


26) Definieer de term 'Lazy Evolution' met verwijzing naar Apache Spark

Apache Spark stelt de evaluatie uit totdat deze nodig is. Voor de transformaties voegt Spark ze toe aan een DAG van berekeningen en vraagt ​​alleen bij het afleiden om enkele gegevens.


27) Leg het gebruik van uitzendvariabelen uit

Het meest voorkomende gebruik van uitzendvariabelen is:

  • Broadcast-variabelen helpen programmeurs een alleen-lezen variabele in de cache op elke machine te houden in plaats van er een kopie van met taken mee te sturen.
  • Je kunt ze ook gebruiken om elk knooppunt op een efficiënte manier een kopie te geven van een grote invoerdataset.
  • Broadcast-algoritmen helpen u ook de communicatiekosten te verlagen

28) Hoe kun je Akka gebruiken met Spark?

Spark gebruikt Akka-gebruik voor planning. Het gebruikt ook Akka voor berichten tussen de werkers en de meesters.


29) Wat het fundamentele is data structuur van Vonk

Dataframe is fundamenteel is de fundamentele datastructuur van Spark.


30) Kun je Spark gebruiken voor het ETL-proces?

Ja, u kunt spark gebruiken voor het ETL-proces.


31) Wat is het nut van kaarttransformatie?

Kaarttransformatie op een RDD produceert een andere RDD door elk element te vertalen. Het helpt u elk element te vertalen door de functie van de gebruiker uit te voeren.


32) Wat zijn de nadelen van het gebruik van Spark?

Hier volgen enkele nadelen van het gebruik van Spark:

  • Spark verbruikt een enorme hoeveelheid gegevens vergeleken met Hadoop.
  • U kunt niet alles op één knooppunt uitvoeren, omdat werk over meerdere clusters moet worden gewantrouwd.
  • Ontwikkelaars hebben extra zorg nodig bij het uitvoeren van hun applicatie in Spark.
  • Spark-streaming biedt geen ondersteuning voor op records gebaseerde venstercriteria.

33) Wat zijn veelvoorkomende toepassingen van Apache Spark?

  • Apache Spark wordt gebruikt voor:
  • Interactief machinaal leren
  • Streamverwerking
  • Gegevensanalyse en -verwerking
  • Verwerking van sensorgegevens

34) Geef het verschil aan tussen de functies persistent() en cache().

Met de functie Persist() kan de gebruiker het opslagniveau opgeven, terwijl cache() het standaardopslagniveau gebruikt.


35) Geef de Spark-bibliotheek een naam die het betrouwbaar delen van bestanden op geheugensnelheid tussen verschillende clusterframeworks mogelijk maakt.

Tachyon is een sparkbibliotheek die het betrouwbaar delen van bestanden op geheugensnelheid mogelijk maakt binnen verschillende clusterframeworks.


36) Apache Spark past goed bij welk type machine learning-technieken?

Apache Spark is ideaal voor eenvoudige machine learning-algoritmen zoals clustering, regressie en classificatie.


37) Hoe kun je het element met een kritisch cadeau verwijderen in een andere Rdd is Apache-vonk?

Om de elementen te verwijderen met een sleutel die aanwezig is in een andere rdd, moet je de functie substractkey() gebruiken.


38) Wat is het nut van controlepunten in Spark?

Dankzij checkpoints kan het programma de klok rond draaien. Bovendien helpt het om het bestand te maken tegen storingen, ongeacht de applicatielogica.


39) Leg de afstammingsgrafiek uit

Afstammingsgrafiekinformatiecomputer elke RDD op aanvraag. Daarom gaat elke keer dat een deel van de persistente RDD verloren gaat. In die situatie kunt u deze gegevens herstellen met behulp van afstammingsgrafiekinformatie.


40) Welke bestandsformaten worden door spark ondersteund?

Spark ondersteunt bestandsformaten json, tsv, snappy, orc, rc, etc.


41) Wat zijn acties?

Action helpt u de gegevens van RDD terug te brengen naar de lokale machine. De uitvoering ervan is het resultaat van alle eerder gemaakte transformaties.


42) Wat is garen?

Garen is een van de belangrijkste kenmerken van Apache Spark. Door een vonk op Yarn uit te voeren, wordt de vonk binair verdeeld, omdat deze is gebouwd op Yarn-ondersteuning.


43) Leg Spark-uitvoerder uit

Een uitvoerder is een Spark-proces dat berekeningen uitvoert en de gegevens opslaat op het werkknooppunt. De laatste taken van SparkContent worden ter uitvoering overgedragen aan de uitvoerder.


44) is het nodig om Spark op alle knooppunten te installeren terwijl de Spark-applicatie op Yarn wordt uitgevoerd?

Nee, u hoeft niet noodzakelijkerwijs Spark op alle knooppunten te installeren, omdat Spark bovenop Yarn draait.


45) Wat is een werkknooppunt in Apache Spark?

Een werkknooppunt is elk knooppunt dat de applicatiecode in een cluster kan uitvoeren.


46) Hoe kun je Spark-taken starten binnen Hadoop MapReduce?

Met Spark in MapReduce kunnen gebruikers allerlei soorten spark-taken binnen MapReduce uitvoeren zonder dat ze beheerdersrechten voor die applicatie hoeven te verkrijgen.


47) Leg het proces uit om automatisch opschonen in Spark te activeren om de verzamelde metadata te beheren.

U kunt automatische opschoningen activeren door de parameter 'spark.cleaner.ttf' te bekijken of door de langlopende taken in verschillende batches te verdelen en de tussenresultaten naar de schijf te schrijven.


48) Leg het gebruik van Blinkdb uit

BlinkDB is een hulpprogramma voor query-engine waarmee u SQL-query's kunt uitvoeren op grote hoeveelheden gegevens en queryresultaten kunt weergeven in de betekenisvolle foutbalken.


49) Verzorgt Hoe Spark de monitoring en registratie in de standalone-modus?

Ja, een spark kan monitoring en loggen in de stand-alone modus aan, omdat deze een webgebaseerde gebruikersinterface heeft.


50) Hoe kun je vaststellen of een bepaalde operatie Transformatie of Actie is?

U kunt de bewerking identificeren op basis van het retourtype. Als het retourtype niet RDD is, is de bewerking een actie. Als het retourtype echter hetzelfde is als de RDD, is de bewerking transformatie.


51) Kunt u Apache Spark gebruiken voor het analyseren en openen van gegevens die zijn opgeslagen in Cassandra-databases?

Ja, u kunt Spark Cassandra Connector gebruiken waarmee u gegevens kunt openen en analyseren die zijn opgeslagen in Cassandra Database.


52) Geef het verschil aan tussen Spark SQL en Hql

SparkSQL is een essentieel onderdeel van de Spark Core-engine. Het ondersteunt SQL en Hive Query Language zonder de syntaxis te wijzigen.

Deze interviewvragen zullen ook helpen bij je viva (oralen)

Delen

Laat een reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd *