As 50 principais perguntas e respostas da entrevista do Apache Spark (2024)
Perguntas da entrevista do Spark para novatos e experientes
Aqui estão as perguntas e respostas da entrevista do Apache Spark para calouros e também para candidatos experientes em ciência de dados para conseguir o emprego dos sonhos.
1) O que é Apache Spark?
Apache Spark é uma estrutura de processamento de dados flexível e fácil de usar. A faísca pode girar Hadoop, autônomo ou na nuvem. É capaz de avaliar diversas fontes de dados, que incluem HDFS, Cassandra e outros.
Download gratuito de PDF: Perguntas e respostas da entrevista do Apache Spark
2) Explique o Dsstream com referência ao Apache Spark
Dstream é uma sequência de banco de dados distribuído resiliente que representa um fluxo de dados. Você pode criar Dstream de várias fontes como HDFS, Apache Flume, Apache Kafka, etc.
3) Cite três fontes de dados disponíveis no SparkSQL
As fontes de dados disponíveis no SparkSQL são:
4) Cite alguns daemons internos usados no Spark?
Daemons importantes usados no Spark são Blockmanager, Memestore, DAGscheduler, Driver, Worker, Executor, Tasks, etc.
5) Defina o termo 'Vetor esparso'.
Vetor esparso é um vetor que possui duas matrizes paralelas, uma para índices e outra para valores, usada para armazenar entidades diferentes de zero para economizar espaço.
6) Nomeie a linguagem suportada pelo Apache Spark para desenvolver aplicativos de big data
Os usos importantes da linguagem para o desenvolvimento de aplicativos de big data são:
- Java
- Python
- R
- Clojure
- Scala
7) Qual é o método para criar um quadro de dados?
No Apache Spark, um quadro de dados pode ser criado usando tabelas no Hive e arquivos de dados estruturados.
8) Explique o esquemaRDD
Um RDD que consiste em um objeto de linha com informações de esquema sobre o tipo de dados em cada coluna é chamado SchemaRDD.
9) O que são acumuladores?
Acumuladores são variáveis somente de gravação. Eles são inicializados uma vez e enviados aos trabalhadores. Esses trabalhadores serão atualizados com base na lógica escrita, que será enviada de volta ao driver.
10) Quais são os componentes do ecossistema Spark?
Um componente importante do Spark é:
- Núcleo de faísca: É um mecanismo básico para processamento de dados paralelo e distribuído em larga escala.
- Transmissão de faísca: Este componente é usado para streaming de dados em tempo real.
- Faísca SQL: Integra o processamento relacional usando a API de programação funcional do Spark
- GráficoX: Permite gráficos e computação paralela a gráficos
- MLlib: Permite realizar aprendizado de máquina no Apache Spark
11) Cite três recursos de uso do Apache Spark
Os três recursos mais importantes do uso do Apache Spark são:
- Suporte para análises sofisticadas
- Ajuda você a integrar-se ao Hadoop e aos dados existentes do Hadoop
- Ele permite que você execute um aplicativo no cluster Hadoop, até 100 vezes mais rápido na memória e dez vezes mais rápido no disco.
12) Explique o nível padrão de paralelismo no Apache Spark
Se o usuário não puder especificar, o número de partições será considerado como nível padrão de paralelismo no Apache Spark.
13) Cite três empresas que usam os serviços Spark Streaming
Três empresas conhecidas que usam os serviços Spark Streaming são:
- Uber
- Netflix
14) O que é SparkSQL?
Spark SQL é um módulo para processamento estruturado de dados onde aproveitamos as consultas SQL executadas nesse banco de dados.
15) Explique o arquivo Parquet
Paraquet é um arquivo de formato colunar suportado por muitos outros sistemas de processamento de dados. Spark SQL permite realizar operações de leitura e gravação com arquivo Parquet.
16) Explique o driver Spark?
Spark Driver é o programa que roda no nó mestre da máquina e declara transformações e ações em RDDs de dados.
17) Como você pode armazenar os dados no Spark?
Spark é um mecanismo de processamento que não possui nenhum mecanismo de armazenamento. Ele pode recuperar dados de outro mecanismo de armazenamento como HDFS, S3.
18) Explique o uso da API do sistema de arquivos no Apache Spark
Sistema de arquivo API permite ler dados de vários dispositivos de armazenamento como HDFS, S3 ou Fileyste local.
19) Qual é a tarefa do Spark Engine
Spark Engine é útil para agendar, distribuir e monitorar a aplicação de dados em todo o cluster.
20) Qual é o usuário do sparkContext?
SparkContent é o ponto de entrada para o Spark. SparkContext permite criar RDDs que fornecem várias maneiras de produzir dados.
21) Como você pode implementar o aprendizado de máquina no Spark?
MLif é uma biblioteca versátil de aprendizado de máquina fornecida pelo Spark.
22) Você pode fazer processamento em tempo real com Spark SQL?
O processamento de dados em tempo real não é possível diretamente. No entanto, é possível registrar o RDD existente como uma tabela SQL e acionar as consultas SQL com prioridade.
23) Quais são as diferenças importantes entre Apache e Hadoop
Parâmetro | Apache Spark | Hadoop |
Velocidade | 100 vezes mais rápido em comparação com o Hadoop. | Possui velocidade moderada. |
Tratamento | Funcionalidade de processamento em lote em tempo real. | Oferece apenas processamento em lote. |
Curva de aprendizado | Transferências | Queijos duros |
Interatividade | Possui modos interativos | Além de Pig e Hive, não possui um modo interativo. |
24) você pode executar o Apache Spark no Apache Mesos?
Sim, você pode executar o Apache Spark nos clusters de hardware gerenciados pela Mesos.
25) Explique as partições
A partição é uma divisão menor e lógica de dados. É o método para derivar unidades lógicas de dados para acelerar o processo de processamento.
26) Defina o termo 'Lazy Evolution' com referência ao Apache Spark
O Apache Spark atrasa sua avaliação até que seja necessário. Para as transformações, o Spark as adiciona a um DAG de computação e somente quando deriva solicita alguns dados.
27) Explique o uso de variáveis de transmissão
O uso mais comum de variáveis de transmissão são:
- Variáveis de transmissão ajudam o programador a manter uma variável somente leitura armazenada em cache em cada máquina, em vez de enviar uma cópia dela com tarefas.
- Você também pode usá-los para fornecer a cada nó uma cópia de um grande conjunto de dados de entrada de maneira eficiente.
- Algoritmos de transmissão também ajudam a reduzir custos de comunicação
28) Como você pode usar o Akka com Spark?
Spark usa Akka para agendamento. Ele também usa Akka para mensagens entre trabalhadores e mestres.
29) Qual o fundamental estrutura de dados de faísca
O quadro de dados é fundamental é a estrutura de dados fundamental do Spark.
30) Você pode usar o processo Spark para ETL?
Sim, você pode usar o Spark para o processo ETL.
31) Qual é a utilidade da transformação de mapas?
A transformação do mapa em um RDD produz outro RDD traduzindo cada elemento. Ajuda a traduzir cada elemento executando a função fornecida pelo usuário.
32) Quais são as desvantagens de usar o Spark?
A seguir estão algumas das desvantagens de usar o Spark:
- O Spark consome uma grande quantidade de dados em comparação com o Hadoop.
- Você não pode executar tudo em um único nó, pois o trabalho deve ser desconfiado em vários clusters.
- Os desenvolvedores precisam de cuidado extra ao executar seus aplicativos no Spark.
- O streaming do Spark não oferece suporte para critérios de janela baseados em registros.
33) Quais são os usos comuns do Apache Spark?
- Apache Spark é usado para:
- Aprendizado de máquina interativo
- Processamento de fluxo
- Análise e processamento de dados
- Processamento de dados de sensores
34) Indique a diferença entre as funções persist() e cache().
A função Persist() permite ao usuário especificar o nível de armazenamento enquanto cache() usa o nível de armazenamento padrão.
35) Dê um nome à Biblioteca Spark, que permite o compartilhamento confiável de arquivos na velocidade da memória em diferentes estruturas de cluster.
Tachyon é uma biblioteca spark que permite o compartilhamento confiável de arquivos na velocidade da memória em várias estruturas de cluster.
36) Apache Spark é adequado para que tipo de técnicas de aprendizado de máquina?
Apache Spark é ideal para algoritmos simples de aprendizado de máquina, como clustering, regressão e classificação.
37) Como você pode remover o elemento com um presente crítico em qualquer outro Rdd é Apache Spark?
Para remover os elementos com chave presente em qualquer outro rdd, você precisa usar a função substractkey().
38) Qual a utilidade dos checkpoints no Spark?
Os pontos de verificação permitem que o programa seja executado XNUMX horas por dia. Além disso, ajuda a torná-lo resiliente a falhas, independentemente da lógica da aplicação.
39) Explique o gráfico de linhagem
Computador de informações gráficas de linhagem para cada RDD sob demanda. Portanto, sempre que uma parte do RDD persistente for perdida. Nessa situação, você pode recuperar esses dados usando informações do gráfico de linhagem.
40) Quais são os formatos de arquivo suportados pelo Spark?
Spark suporta formato de arquivo json, tsv, snappy, orc, rc, etc.
41) O que são Ações?
Action ajuda você a trazer de volta os dados do RDD para a máquina local. A sua execução é o resultado de todas as transformações criadas anteriormente.
42) O que é fio?
Yarn é um dos recursos mais importantes do Apache Spark. A execução do spark no Yarn faz a distribuição binária do spark, pois é construído no suporte do Yarn.
43) Explique o Executor Spark
Um executor é um processo Spark que executa cálculos e armazena os dados no nó de trabalho. As tarefas finais do SparkContent são transferidas ao executor para sua execução.
44) é necessário instalar o Spark em todos os nós durante a execução do aplicativo Spark no Yarn?
Não, você não precisa necessariamente instalar o spark em todos os nós, pois o spark é executado no Yarn.
45) O que é um nó de trabalho no Apache Spark?
Um nó de trabalho é qualquer nó que pode executar o código do aplicativo em um cluster.
46) Como você pode iniciar jobs do Spark dentro do Hadoop MapReduce?
O Spark no MapReduce permite que os usuários executem todos os tipos de trabalhos do Spark dentro do MapReduce sem a necessidade de obter direitos de administrador desse aplicativo.
47) Explique o processo para acionar a limpeza automática no Spark para gerenciar metadados acumulados.
Você pode acionar limpezas automáticas vendo o parâmetro 'spark.cleaner.ttf ou separando os trabalhos de longa duração em vários lotes e gravando os resultados intermediários no disco.
48) Explique o uso do Blinkdb
BlinkDB é uma ferramenta de mecanismo de consulta que permite executar consultas SQL em grandes volumes de dados e renderizar os resultados da consulta em barras de erro significativas.
49) O Hoe Spark lida com monitoramento e registro no modo autônomo?
Sim, um spark pode lidar com monitoramento e registro em modo autônomo, pois possui uma interface de usuário baseada na web.
50) Como identificar se uma determinada operação é de Transformação ou de Ação?
Você pode identificar a operação com base no tipo de retorno. Se o tipo de retorno não for RDD, a operação será uma ação. Porém, se o tipo de retorno for igual ao RDD, então a operação é de transformação.
51) Você pode usar o Apache Spark para analisar e acessar dados armazenados em bancos de dados Cassandra?
Sim, você pode usar o Spark Cassandra Connector, que permite acessar e analisar dados armazenados no banco de dados Cassandra.
52) Indique a diferença entre Spark SQL e Hql
SparkSQL é um componente essencial do mecanismo Spark Core. Ele oferece suporte a SQL e Hive Query Language sem alterar sua sintaxe.
Essas perguntas da entrevista também ajudarão em sua viva (oral)