Las 52 mejores preguntas y respuestas de entrevistas de Apache Spark (2025)
Preguntas de la entrevista Spark para principiantes y experimentados
Aquí hay preguntas y respuestas de la entrevista de Apache Spark para principiantes y candidatos experimentados en ciencia de datos para obtener el trabajo de sus sueños.
1) ¿Qué es Apache Spark?
Apache Spark es un marco de procesamiento de datos flexible y fácil de usar. La chispa puede redondearse Hadoop, independiente o en la nube. Es capaz de evaluar diversas fuentes de datos, que incluyen HDFS, Cassandra y otros.
Descarga gratuita de PDF: Preguntas y respuestas de la entrevista de Apache Spark
2) Explique Dsstream con referencia a Apache Spark
Dstream es una secuencia de base de datos distribuida resiliente que representa un flujo de datos. Puede crear Dstream desde varias fuentes como HDFS, Apache Flume, Apache Kafka, etc.
3) Nombre tres fuentes de datos disponibles en SparkSQL
Las fuentes de datos disponibles en SparkSQL son:
4) ¿Nombre algunos demonios internos usados en Spark?
Los demonios importantes que se usan en Spark son Blockmanager, Memestore, DAGscheduler, Driver, Worker, Executor, Tasks, etc.
5) Defina el término 'Vector disperso'.
El vector disperso es un vector que tiene dos matrices paralelas, una para índices, otra para valores, que se usa para almacenar entidades distintas de cero para ahorrar espacio.
6) Nombre el idioma admitido por Apache Spark para desarrollar aplicaciones de big data
Los usos importantes del lenguaje para desarrollar aplicaciones de big data son:
- Java
- Python
- R
- Clojure
- Scala
7) ¿Cuál es el método para crear un marco de datos?
En Apache Spark, se puede crear un marco de datos utilizando tablas en Hive y archivos de datos estructurados.
8) Explicar SchemaRDD
Un RDD que consta de un objeto de fila con información de esquema sobre el tipo de datos en cada columna se llama SchemaRDD.
9) ¿Qué son los acumuladores?
Los acumuladores son las variables de solo escritura. Se inicializan una vez y se envían a los trabajadores. Estos trabajadores se actualizarán según la lógica escrita, que se enviará de vuelta al controlador.
10) ¿Cuáles son los componentes de Spark Ecosystem?
Un componente importante de Spark son:
- Núcleo de chispa: Es un motor base para el procesamiento de datos paralelos y distribuidos a gran escala.
- Transmisión de chispa: Este componente se utiliza para la transmisión de datos en tiempo real.
- Spark SQL: Integra el procesamiento relacional mediante el uso de la API de programación funcional de Spark
- GráficoX: Permite gráficos y cálculo paralelo de gráficos
- MLlib: Le permite realizar aprendizaje automático en Apache Spark
11) Nombre tres características del uso de Apache Spark
Las tres características más importantes del uso de Apache Spark son:
- Soporte para análisis sofisticado
- Le ayuda a integrarse con Hadoop y los datos existentes de Hadoop
- Le permite ejecutar una aplicación en el clúster de Hadoop, hasta 100 veces más rápido en la memoria y diez veces más rápido en el disco.
12) Explicar el nivel predeterminado de paralelismo en Apache Spark
Si el usuario no puede especificar, la cantidad de particiones se considera como el nivel predeterminado de paralelismo en Apache Spark.
13) Nombre tres empresas que utilizan los servicios de Spark Streaming
Tres empresas conocidas que utilizan los servicios de Spark Streaming son:
- Uber
- Netflix
14) ¿Qué es Spark SQL?
Spark SQL es un módulo para el procesamiento de datos estructurados donde aprovechamos las consultas SQL que se ejecutan en esa base de datos.
15) Explique el archivo Parquet
Paraquet es un archivo de formato columnar compatible con muchos otros sistemas de procesamiento de datos. Spark SQL le permite realizar operaciones de lectura y escritura con el archivo Parquet.
16) ¿Explicar el controlador de chispa?
Spark Driver es el programa que se ejecuta en el nodo maestro de la máquina y declara transformaciones y acciones en los RDD de datos.
17) ¿Cómo puedes almacenar los datos en Spark?
Spark es un motor de procesamiento que no tiene ningún motor de almacenamiento. Puede recuperar datos de otro motor de almacenamiento como HDFS, S3.
18) Explicar el uso de la API del sistema de archivos en Apache Spark
Sistema de archivos API le permite leer datos de varios dispositivos de almacenamiento como HDFS, S3 o Fileyste local.
19) ¿Cuál es la tarea de Spark Engine?
Spark Engine es útil para programar, distribuir y monitorear la aplicación de datos en todo el clúster.
20) ¿Cuál es el usuario de sparkContext?
SparkContent es el punto de entrada a Spark. SparkContext le permite crear RDD que proporcionaron varias formas de mezclar datos.
21) ¿Cómo se puede implementar el aprendizaje automático en Spark?
MLif es una biblioteca versátil de aprendizaje automático proporcionada por Spark.
22) ¿Puede hacer procesamiento en tiempo real con Spark SQL?
El procesamiento de datos en tiempo real no es posible directamente. Sin embargo, es posible registrar el RDD existente como una tabla SQL y activar las consultas SQL con prioridad.
23) ¿Cuáles son las diferencias importantes entre Apache y Hadoop?
Parámetro | Apache Spark | Hadoop |
---|---|---|
Velocidad | 100 veces más rápido en comparación con Hadoop. | Tiene velocidad moderada. |
Tratamiento | Funcionalidad de procesamiento por lotes en tiempo real. | Solo ofrece procesamiento por lotes. |
Curva de aprendizaje | Fácil | Difícil |
Interactividad | Tiene modos interactivos. | Aparte de Pig and Hive, no tiene una forma interactiva. |
24) ¿Puede ejecutar Apache Spark en Apache Mesos?
Sí, puede ejecutar Apache Spark en los clústeres de hardware administrados por Mesos.
25) Explica las particiones
La partición es una división de datos más pequeña y lógica. Es el método para derivar unidades lógicas de datos para acelerar el proceso de procesamiento.
26) Defina el término 'Lazy Evolution' con referencia a Apache Spark
Apache Spark retrasa su evaluación hasta que se necesita. Para las transformaciones, Spark las agrega a un DAG de computación y solo cuando deriva solicita algunos datos.
27) Explicar el uso de variables de transmisión
El uso más común de las variables de difusión son:
- Las variables de difusión ayudan al programador a mantener una variable de solo lectura en caché en cada máquina en lugar de enviar una copia con las tareas.
- También puede usarlos para dar a cada nodo una copia de un gran conjunto de datos de entrada de manera eficiente.
- Los algoritmos de transmisión también lo ayudan a reducir los costos de comunicación
28) ¿Cómo puedes usar Akka con Spark?
Spark usa el uso de Akka para programar. También usa Akka para enviar mensajes entre los trabajadores y los maestros.
29) ¿Cuál es el fundamento estructura de datos de chispa
El marco de datos es fundamental es la estructura de datos fundamental de Spark.
30) ¿Se puede usar Spark para el proceso ETL?
Sí, puede usar Spark para el proceso ETL.
31) ¿Cuál es el uso de la transformación de mapas?
La transformación de mapas en un RDD produce otro RDD al traducir cada elemento. Le ayuda a traducir cada elemento mediante la ejecución de la función proporcionada por el usuario.
32) ¿Cuáles son las desventajas de usar Spark?
Las siguientes son algunas de las desventajas de usar Spark:
- Spark consume una gran cantidad de datos en comparación con Hadoop.
- No puede ejecutar todo en un solo nodo, ya que se debe desconfiar del trabajo en varios clústeres.
- Los desarrolladores necesitan un cuidado especial al ejecutar su aplicación en Spark.
- Spark Streaming no admite criterios de ventana basados en registros.
33) ¿Cuáles son los usos comunes de Apache Spark?
- Apache Spark se utiliza para:
- Aprendizaje automático interactivo
- Procesamiento de flujo
- Análisis y procesamiento de datos
- Procesamiento de datos de sensores
34) Indique la diferencia entre las funciones persist() y cache().
La función Persist() permite al usuario especificar el nivel de almacenamiento mientras que cache() usa el nivel de almacenamiento predeterminado.
35) Asigne un nombre a la biblioteca Spark que permite compartir archivos de manera confiable a la velocidad de la memoria en diferentes marcos de clúster.
Tachyon es una biblioteca Spark que permite compartir archivos de manera confiable a la velocidad de la memoria en varios marcos de clúster.
36) ¿Apache Spark es una buena opción para qué tipo de técnicas de aprendizaje automático?
Apache Spark es ideal para algoritmos de aprendizaje automático simples como agrupación, regresión y clasificación.
37) ¿Cómo se puede eliminar el elemento con un presente crítico en cualquier otro Rdd is Apache spark?
Para eliminar los elementos con una clave presente en cualquier otro rdd, debe usar la función substractkey().
38) ¿Para qué sirven los puntos de control en Spark?
Los puntos de control permiten que el programa se ejecute durante todo el día. Además, ayuda a que sea resistente a fallas independientemente de la lógica de la aplicación.
39) Explica el gráfico de linaje
Computadora de información de gráfico de linaje cada RDD a pedido. Por lo tanto, siempre que se pierda una parte de RDD persistente. En esa situación, puede recuperar estos datos utilizando la información del gráfico de linaje.
40) ¿Cuáles son los formatos de archivo compatibles con Spark?
Spark admite el formato de archivo json, tsv, snappy, orc, rc, etc.
41) ¿Qué son las Acciones?
La acción lo ayuda a recuperar los datos de RDD a la máquina local. Su ejecución es el resultado de todas las transformaciones creadas previamente.
42) ¿Qué es el hilo?
Yarn es una de las características más importantes de Apache Spark. Ejecutar chispa en Yarn hace una distribución binaria de chispa, ya que se basa en el soporte de Yarn.
43) Explicar Spark Executor
Un ejecutor es un proceso de Spark que ejecuta cálculos y almacena los datos en el nodo trabajador. Las tareas finales por SparkContent son transferidas al ejecutor para su ejecución.
44) ¿Es necesario instalar Spark en todos los nodos mientras se ejecuta la aplicación Spark en Yarn?
No, no es necesario que instale Spark en todos los nodos, ya que Spark se ejecuta sobre Yarn.
45) ¿Qué es un nodo trabajador en Apache Spark?
Un nodo trabajador es cualquier nodo que puede ejecutar el código de la aplicación en un clúster.
46) ¿Cómo puede iniciar trabajos de Spark dentro de Hadoop MapReduce?
Spark en MapReduce permite a los usuarios ejecutar todo tipo de trabajos de chispa dentro de MapReduce sin necesidad de obtener derechos de administrador de esa aplicación.
47) Explique el proceso para activar la limpieza automática en Spark para administrar los metadatos acumulados.
Puede desencadenar limpiezas automáticas al ver el parámetro 'spark.cleaner.ttf o al separar los trabajos de ejecución prolongada en varios lotes y escribir los resultados intermedios en el disco.
48) Explica el uso de Blinkdb
BlinkDB es una herramienta de motor de consulta que le permite ejecutar consultas SQL en grandes volúmenes de datos y presenta los resultados de la consulta en las barras de error significativas.
49) ¿Hoe Spark maneja el monitoreo y registro en modo Independiente?
Sí, una chispa puede manejar el monitoreo y el inicio de sesión en modo independiente, ya que tiene una interfaz de usuario basada en la web.
50) ¿Cómo se puede identificar si una determinada operación es Transformación o Acción?
Puede identificar la operación según el tipo de devolución. Si el tipo de retorno no es RDD, entonces la operación es una acción. Sin embargo, si el tipo de retorno es el mismo que el RDD, entonces la operación es de transformación.
51) ¿Puede usar Apache Spark para analizar y acceder a los datos almacenados en las bases de datos de Cassandra?
Sí, puede usar Spark Cassandra Connector, que le permite acceder y analizar datos almacenados en Cassandra Database.
52) Indique la diferencia entre Spark SQL y Hql
SparkSQL es un componente esencial en el motor Spark Core. Es compatible con SQL y Hive Query Language sin alterar su sintaxis.
Estas preguntas de la entrevista también te ayudarán en tu viva(orals)