Le 52 migliori domande e risposte all'intervista su Apache Spark (2025)
Domande per l'intervista Spark per matricole ed esperti
Ecco le domande e le risposte al colloquio su Apache Spark per i principianti e per i candidati esperti in Data Science per ottenere il lavoro dei loro sogni.
1) Cos'è Apache Spark?
Apache Spark è un framework di elaborazione dati flessibile e facile da usare. La scintilla può continuare Hadoop, autonomo o nel cloud. È in grado di valutare diverse fonti di dati, che includono HDFS, Cassandra e altre.
Download gratuito del PDF: domande e risposte all'intervista su Apache Spark
2) Spiegare Dsstream con riferimento ad Apache Spark
Dstream è una sequenza di database distribuiti resilienti che rappresentano un flusso di dati. Puoi creare Dstream da varie fonti come HDFS, Apache Flume, Apache Kafka, ecc.
3) Nominare tre origini dati disponibili in SparkSQL
Le origini dati disponibili in SparkSQL sono:
4) Nomina alcuni demoni interni utilizzati in Spark?
I demoni importanti utilizzati in Spark sono Blockmanager, Memestore, DAGscheduler, Driver, Worker, Executor, Tasks, ecc.
5) Definire il termine "Vettore sparso".
Il vettore sparso è un vettore che ha due array paralleli, uno per gli indici, uno per i valori, utilizzati per memorizzare entità diverse da zero per risparmiare spazio.
6) Assegnare un nome al linguaggio supportato da Apache Spark per lo sviluppo di applicazioni Big Data
Importanti usi linguistici per lo sviluppo di applicazioni Big Data sono:
- Java
- Python
- R
- Clojure
- Scala
7) Qual è il metodo per creare un Data frame?
In Apache Spark, è possibile creare un frame di dati utilizzando tabelle in file Hive e dati strutturati.
8) Spiegare SchemaRDD
Un RDD costituito da un oggetto riga con informazioni sullo schema sul tipo di dati in ciascuna colonna è chiamato SchemaRDD.
9) Cosa sono gli accumulatori?
Gli accumulatori sono le variabili di sola scrittura. Vengono inizializzati una volta e inviati ai lavoratori. Questi lavoratori si aggiorneranno in base alla logica scritta, che rimanderà al conducente.
10) Quali sono i componenti di Spark Ecosystem?
Una componente importante di Spark sono:
- Nucleo di scintilla: È un motore di base per l'elaborazione di dati paralleli e distribuiti su larga scala
- Streaming scintillante: Questo componente viene utilizzato per lo streaming di dati in tempo reale.
- Spark SQL: Integra l'elaborazione relazionale utilizzando l'API di programmazione funzionale di Spark
- GraficoX: Consente grafici e calcoli paralleli ai grafici
- MLlib: Consente di eseguire l'apprendimento automatico in Apache Spark
11) Nomina tre caratteristiche dell'utilizzo di Apache Spark
Le tre caratteristiche più importanti dell'utilizzo di Apache Spark sono:
- Supporto per analisi sofisticate
- Ti aiuta a integrarti con Hadoop e i dati Hadoop esistenti
- Ti consente di eseguire un'applicazione nel cluster Hadoop, fino a 100 volte più veloce in memoria e dieci volte più veloce su disco.
12) Spiegare il livello predefinito di parallelismo in Apache Spark
Se l'utente non è in grado di specificarlo, il numero di partizioni viene considerato come livello di parallelismo predefinito in Apache Spark.
13) Nomina tre società che utilizzano i servizi Spark Streaming
Tre società note che utilizzano i servizi Spark Streaming sono:
- Uber
- Netflix
14) Cos'è Spark SQL?
Spark SQL è un modulo per l'elaborazione strutturata dei dati in cui sfruttiamo le query SQL in esecuzione su quel database.
15) Spiegare il file Parquet
Paraquet è un file in formato colonnare supportato da molti altri sistemi di elaborazione dati. Spark SQL ti consente di eseguire operazioni di lettura e scrittura con il file Parquet.
16) Spiegare Spark Driver?
Spark Driver è il programma che gira sul nodo master della macchina e dichiara trasformazioni e azioni sui dati RDD.
17) Come si possono archiviare i dati in Spark?
Spark è un motore di elaborazione che non dispone di alcun motore di archiviazione. Può recuperare dati da un altro motore di archiviazione come HDFS, S3.
18) Spiegare l'uso dell'API del file system in Apache Spark
File system API ti consente di leggere i dati da vari dispositivi di archiviazione come HDFS, S3 o Fileyste locale.
19) Qual è il compito di Spark Engine
Spark Engine è utile per pianificare, distribuire e monitorare l'applicazione dei dati nel cluster.
20) Qual è l'utente di sparkContext?
SparkContent è il punto di ingresso per Spark. SparkContext ti consente di creare RDD che forniscono vari modi di sfornare i dati.
21) Come è possibile implementare l'apprendimento automatico in Spark?
MLif è una versatile libreria di machine learning fornita da Spark.
22) Puoi eseguire l'elaborazione in tempo reale con Spark SQL?
L'elaborazione dei dati in tempo reale non è possibile direttamente. Tuttavia, è possibile registrare l'RDD esistente come tabella SQL e attivare le query SQL in base alla priorità.
23) Quali sono le differenze importanti tra Apache e Hadoop
Parametro | Apache Spark | Hadoop |
---|---|---|
Velocità | 100 volte più veloce rispetto a Hadoop. | Ha una velocità moderata. |
Processando | Funzionalità di elaborazione batch in tempo reale. | Offre solo l'elaborazione batch. |
Curva di apprendimento | Facile | Hard |
Interattività | Ha modalità interattive | A parte Pig e Hive, non ha una modalità interattiva. |
24) puoi eseguire Apache Spark su Apache Mesos?
Sì, puoi eseguire Apache Spark sui cluster hardware gestiti da Mesos.
25) Spiegare le partizioni
La partizione è una divisione più piccola e logica dei dati. È il metodo per derivare unità logiche di dati per accelerare il processo di elaborazione.
26) Definire il termine 'Lazy Evolution' con riferimento ad Apache Spark
Apache Spark ritarda la sua valutazione fino a quando non sarà necessaria. Per le trasformazioni, Spark le aggiunge a un DAG di calcolo e solo quando deriva richiede alcuni dati.
27) Spiegare l'uso delle variabili broadcast
Gli usi più comuni delle variabili broadcast sono:
- Le variabili broadcast aiutano il programmatore a mantenere una variabile di sola lettura nella cache su ogni macchina invece di spedirne una copia con le attività.
- Puoi anche usarli per fornire a ogni nodo una copia di un set di dati di input di grandi dimensioni in modo efficiente.
- Gli algoritmi di trasmissione ti aiutano anche a ridurre i costi di comunicazione
28) Come puoi usare Akka con Spark?
Spark utilizza Akka per la pianificazione. Utilizza anche Akka per la messaggistica tra lavoratori e padroni.
29) Quale il fondamentale struttura dati di Scintilla
Il frame dati è fondamentale è la struttura dati fondamentale di Spark.
30) Puoi utilizzare Spark per il processo ETL?
Sì, puoi utilizzare Spark per il processo ETL.
31) A cosa serve la trasformazione della mappa?
La trasformazione della mappa su un RDD produce un altro RDD traducendo ciascun elemento. Ti aiuta a tradurre ogni elemento eseguendo la funzione fornita dall'utente.
32) Quali sono gli svantaggi dell'utilizzo di Spark?
Di seguito sono riportati alcuni degli svantaggi dell'utilizzo di Spark:
- Spark consuma un'enorme quantità di dati rispetto a Hadoop.
- Non è possibile eseguire tutto su un singolo nodo poiché il lavoro deve essere affidato a più cluster.
- Gli sviluppatori necessitano di particolare attenzione durante l'esecuzione della propria applicazione in Spark.
- Lo streaming Spark non fornisce supporto per i criteri della finestra basati su record.
33) Quali sono gli usi comuni di Apache Spark?
- Apache Spark è utilizzato per:
- Apprendimento automatico interattivo
- Elaborazione del flusso
- Analisi ed elaborazione dei dati
- Elaborazione dei dati dei sensori
34) Dichiara la differenza tra le funzioni persist() e cache().
La funzione Persist() consente all'utente di specificare il livello di archiviazione mentre cache() utilizza il livello di archiviazione predefinito.
35) Assegnare un nome alla libreria Spark che consente una condivisione affidabile dei file alla velocità della memoria tra diversi framework di cluster.
Tachyon è una libreria spark che consente una condivisione affidabile di file alla velocità della memoria tra vari framework di cluster.
36) Apache Spark è adatto per quale tipo di tecniche di machine learning?
Apache Spark è ideale per semplici algoritmi di machine learning come clustering, regressione e classificazione.
37) Come è possibile rimuovere l'elemento con una criticità presente in qualsiasi altro Rdd è Apache spark?
Per rimuovere gli elementi con una chiave presente in qualsiasi altro rdd, è necessario utilizzare la funzione substractkey().
38) A cosa servono i checkpoint in Spark?
I checkpoint consentono al programma di funzionare XNUMX ore su XNUMX. Inoltre, aiuta a renderlo resiliente al fallimento indipendentemente dalla logica dell'applicazione.
39) Spiegare il grafico di lignaggio
Computer con informazioni sul grafico di stirpe ogni RDD su richiesta. Pertanto, ogni volta che una parte dell'RDD persistente viene persa. In tale situazione, puoi recuperare questi dati utilizzando le informazioni del grafico di derivazione.
40) Quali sono i formati di file supportati da spark?
Spark supporta il formato file json, tsv, snappy, orc, rc, ecc.
41) Cosa sono le Azioni?
L'azione ti aiuta a riportare i dati da RDD al computer locale. La sua esecuzione è il risultato di tutte le trasformazioni create in precedenza.
42) Cos'è il filato?
Il filato è una delle funzionalità più importanti di Apache Spark. L'esecuzione di Spark su Yarn effettua la distribuzione binaria di Spark poiché è basato sul supporto di Yarn.
43) Spiega Spark Executor
Un esecutore è un processo Spark che esegue calcoli e archivia i dati sul nodo di lavoro. Le attività finali di SparkContent vengono trasferite all'esecutore per la loro esecuzione.
44) è necessario installare Spark su tutti i nodi mentre si esegue l'applicazione Spark su Yarn?
No, non è necessariamente necessario installare Spark su tutti i nodi poiché Spark viene eseguito su Yarn.
45) Cos'è un nodo di lavoro in Apache Spark?
Un nodo di lavoro è qualsiasi nodo che può eseguire il codice dell'applicazione in un cluster.
46) Come è possibile avviare lavori Spark all'interno di Hadoop MapReduce?
Spark in MapReduce consente agli utenti di eseguire tutti i tipi di lavori Spark all'interno di MapReduce senza la necessità di ottenere i diritti di amministratore di tale applicazione.
47) Spiegare il processo per attivare la pulizia automatica in Spark per gestire i metadati accumulati.
È possibile attivare le pulizie automatiche visualizzando il parametro 'spark.cleaner.ttf o separando i lavori di lunga durata in vari batch e scrivendo i risultati intermedi sul disco.
48) Spiegare l'uso di Blinkdb
BlinkDB è uno strumento del motore di query che consente di eseguire query SQL su enormi volumi di dati e di visualizzare i risultati delle query nelle barre di errore significative.
49) Hoe Spark gestisce il monitoraggio e la registrazione in modalità autonoma?
Sì, Spark può gestire il monitoraggio e la registrazione in modalità autonoma poiché dispone di un'interfaccia utente basata sul Web.
50) Come si può identificare se una determinata operazione è Trasformazione o Azione?
È possibile identificare l'operazione in base al tipo di reso. Se il tipo restituito non è RDD, l'operazione è un'azione. Tuttavia, se il tipo restituito è lo stesso di RDD, l'operazione è di trasformazione.
51) È possibile utilizzare Apache Spark per analizzare e accedere ai dati archiviati nei database Cassandra?
Sì, puoi utilizzare Spark Cassandra Connector che ti consente di accedere e analizzare i dati archiviati nel database Cassandra.
52) Dichiara la differenza tra Spark SQL e Hql
SparkSQL è un componente essenziale del motore Spark Core. Supporta SQL e Hive Query Language senza alterarne la sintassi.
Queste domande del colloquio ti aiuteranno anche nel tuo viva(orale)