Apache Spark 인터뷰 질문 및 답변 상위 50개(2024)

신입생과 경력자를 위한 Spark 인터뷰 질문

다음은 꿈의 직업을 얻기 위한 신입생과 숙련된 데이터 과학 후보자를 위한 Apache Spark 면접 질문과 답변입니다.


1) 아파치 스파크란 무엇입니까?

Apache Spark는 사용하기 쉽고 유연한 데이터 처리 프레임워크입니다. 스파크가 시작될 수 있습니다. 하둡, 독립형 또는 클라우드에서. HDFS, Cassandra 등을 포함한 다양한 데이터 소스를 평가할 수 있습니다.

무료 PDF 다운로드: Apache Spark 인터뷰 질문 및 답변


2) Apache Spark를 참조하여 Dsstream을 설명합니다.

Dstream은 데이터 스트림을 나타내는 일련의 탄력적인 분산 데이터베이스입니다. HDFS, Apache Flume, Apache와 같은 다양한 소스에서 Dstream을 생성할 수 있습니다. 카프카


3) SparkSQL에서 사용할 수 있는 세 가지 데이터 소스를 나열하세요.

SparkSQL에서 사용할 수 있는 데이터 소스는 다음과 같습니다.

  • JSON 데이터 세트
  • 하이브 테이블
  • 쪽모이 세공 파일

4) 스파크에 사용되는 내부 데몬의 이름은 무엇입니까?

Spark에서 사용되는 중요한 데몬은 Blockmanager, Memestore, DAGscheduler, Driver, Worker, Executor, Tasks 등입니다.


5) 'Sparse Vector'라는 용어를 정의합니다.

희소 벡터는 두 개의 병렬 배열이 있는 벡터입니다. 하나는 인덱스용이고 다른 하나는 값용이며 공간을 절약하기 위해 XNUMX이 아닌 엔터티를 저장하는 데 사용됩니다.

스파크 인터뷰 질문
스파크 인터뷰 질문

6) 빅데이터 애플리케이션 개발을 위해 Apache Spark에서 지원하는 언어의 이름을 지정하세요.

빅데이터 애플리케이션 개발에 중요한 언어 사용은 다음과 같습니다.

  • 자바
  • Python
  • R
  • Clojure
  • 스칼라

7) 데이터 프레임을 생성하는 방법은 무엇입니까?

Apache Spark에서는 Hive 및 구조화된 데이터 파일의 테이블을 사용하여 데이터 프레임을 생성할 수 있습니다.


8) SchemaRDD 설명

각 열의 데이터 유형에 대한 스키마 정보가 있는 행 개체로 구성된 RDD를 SchemaRDD라고 합니다.


9) 어큐뮬레이터란 무엇입니까?

누산기는 쓰기 전용 변수입니다. 한 번 초기화되어 작업자에게 전송됩니다. 이러한 작업자는 작성된 논리에 따라 업데이트되어 드라이버로 다시 전송됩니다.


10) 스파크 생태계의 구성요소는 무엇입니까?

Spark의 중요한 구성 요소는 다음과 같습니다.

  • 스파크 코어: 대규모 병렬 및 분산 데이터 처리를 위한 기본 엔진입니다.
  • 스파크 스트리밍: 실시간 데이터 스트리밍에 사용되는 구성 요소입니다.
  • 불꽃 SQL: Spark의 함수형 프로그래밍 API를 사용하여 관계형 처리를 통합합니다.
  • 그래프X: 그래프 및 그래프 병렬 계산이 가능합니다.
  • MLlib: Apache Spark에서 기계 학습을 수행할 수 있습니다.

11) Apache Spark 사용의 세 가지 기능을 말해 보세요.

Apache Spark 사용 시 가장 중요한 세 가지 기능은 다음과 같습니다.

  1. 정교한 분석 지원
  2. Hadoop 및 기존 Hadoop 데이터와 통합하는 데 도움이 됩니다.
  3. 이를 통해 Hadoop 클러스터에서 애플리케이션을 실행할 수 있으며, 메모리에서는 최대 100배, 디스크에서는 XNUMX배 더 빠릅니다.

12) Apache Spark의 기본 병렬 처리 수준을 설명하세요.

사용자가 지정할 수 없는 경우 파티션 수는 Apache Spark에서 기본 병렬 처리 수준으로 간주됩니다.


13) 스파크 스트리밍 서비스를 이용하는 회사를 XNUMX개 말해주세요.

Spark Streaming 서비스를 사용하는 알려진 회사는 다음과 같습니다.

  • 동네 짱
  • 넷플릭스
  • 핀터레스트

14) 스파크 SQL이란 무엇입니까?

Spark SQL은 해당 데이터베이스에서 실행되는 SQL 쿼리를 활용하는 구조화된 데이터 처리를 위한 모듈입니다.


15) Parquet 파일 설명

Paraquet은 다른 많은 데이터 처리 시스템에서 지원하는 열 형식 파일입니다. Spark SQL을 사용하면 Parquet 파일로 읽기 및 쓰기 작업을 모두 수행할 수 있습니다.


16) 스파크 드라이버에 대해 설명해주세요.

Spark Driver는 머신의 마스터 노드에서 실행되고 데이터 RDD에 대한 변환 및 작업을 선언하는 프로그램입니다.


17) Spark에 데이터를 어떻게 저장할 수 있나요?

Spark는 스토리지 엔진이 없는 처리 엔진입니다. HDFS, S3와 같은 다른 스토리지 엔진에서 데이터를 검색할 수 있습니다.


18) Apache Spark에서 파일 시스템 API 사용 설명

파일 시스템 API HDFS, S3 또는 로컬 Fileyste와 같은 다양한 저장 장치에서 데이터를 읽을 수 있습니다.


19) Spark Engine의 역할은 무엇입니까?

Spark 엔진은 클러스터 전체에서 데이터 애플리케이션을 예약, 배포 및 모니터링하는 데 유용합니다.


20) SparkContext의 사용자는 무엇입니까?

SparkContent는 Spark의 진입점입니다. SparkContext를 사용하면 다양한 데이터 변동 방법을 제공하는 RDD를 생성할 수 있습니다.


21) Spark에서 머신러닝을 어떻게 구현할 수 있나요?

MLif는 Spark에서 제공하는 다목적 기계 학습 라이브러리입니다.


22) Spark SQL로 실시간 처리가 가능한가요?

실시간 데이터 처리가 직접적으로 불가능합니다. 그러나 기존 RDD를 SQL 테이블로 등록하고 우선 순위에 따라 SQL 쿼리를 트리거하면 가능합니다.


23) Apache와 Hadoop의 중요한 차이점은 무엇입니까?

매개 변수 아파치 스파크 하둡
속도 Hadoop에 비해 100배 빠릅니다. 적당한 속도를 가지고 있습니다.
처리 실시간 일괄 처리 기능. 일괄 처리만 제공합니다.
학습 곡선 Easy 하드
상호 작용 대화형 모드가 있습니다 Pig와 Hive 외에는 대화형 방식이 없습니다.

24) Apache Mesos에서 Apache Spark를 실행할 수 있습니까?

예, Mesos가 관리하는 하드웨어 클러스터에서 Apache Spark를 실행할 수 있습니다.


25) 파티션 설명

파티션은 데이터를 더 작고 논리적으로 분할한 것입니다. 처리 속도를 높이기 위해 데이터의 논리적 단위를 도출하는 방법이다.


26) Apache Spark를 참고하여 'Lazy Evolution'이라는 용어를 정의합니다.

Apache Spark는 필요할 때까지 평가를 연기합니다. 변환의 경우 Spark는 변환을 DAG 계산에 추가하고 일부 데이터를 파생 요청하는 경우에만 추가합니다.


27) 브로드캐스트 변수의 사용을 설명하세요

브로드캐스트 변수의 가장 일반적인 용도는 다음과 같습니다.

  • 브로드캐스트 변수는 프로그래머가 작업과 함께 복사본을 전달하는 대신 읽기 전용 변수를 각 컴퓨터에 캐시된 상태로 유지하는 데 도움이 됩니다.
  • 또한 이를 사용하여 모든 노드에 효율적인 방식으로 대규모 입력 데이터세트의 복사본을 제공할 수 있습니다.
  • 방송 알고리즘은 통신 비용 절감에도 도움이 됩니다.

28) Akka를 Spark와 함께 어떻게 사용할 수 있나요?

Spark는 예약을 위해 Akka를 사용합니다. 또한 작업자와 마스터 간의 메시징에도 Akka를 사용합니다.


29) 근본적인 것은 데이터 구조 스파크의

데이터 프레임은 Spark의 기본 데이터 구조입니다.


30) ETL 프로세스에 Spark를 사용할 수 있나요?

예, ETL 프로세스에 Spark를 사용할 수 있습니다.


31) 지도 변환의 용도는 무엇입니까?

RDD의 맵 변환은 각 요소를 변환하여 또 다른 RDD를 생성합니다. 사용자가 제공하는 기능을 실행하여 모든 요소를 ​​번역할 수 있도록 도와줍니다.


32) Spark를 사용하면 어떤 단점이 있나요?

다음은 Spark 사용의 몇 가지 단점입니다.

  • Spark는 Hadoop에 비해 엄청난 양의 데이터를 소비합니다.
  • 작업은 여러 클러스터에서 신뢰되지 않아야 하므로 단일 노드에서 모든 것을 실행할 수는 없습니다.
  • 개발자는 Spark에서 애플리케이션을 실행하는 동안 특별한 주의가 필요합니다.
  • Spark 스트리밍은 레코드 기반 기간 기준을 지원하지 않습니다.

33) Apache Spark의 일반적인 용도는 무엇입니까?

  • Apache Spark는 다음 용도로 사용됩니다.
  • 대화형 기계 학습
  • 스트림 처리
  • 데이터 분석 및 처리
  • 센서 데이터 처리

34) persist()와 캐시() 함수의 차이점을 설명하십시오.

Persist() 함수를 사용하면 사용자가 저장소 수준을 지정할 수 있는 반면, 캐시()는 기본 저장소 수준을 사용합니다.


35) 다양한 클러스터 프레임워크에서 메모리 속도로 안정적인 파일 공유를 허용하는 Spark 라이브러리의 이름을 지정합니다.

Tachyon은 다양한 클러스터 프레임워크에서 메모리 속도로 안정적인 파일 공유를 가능하게 하는 Spark 라이브러리입니다.


36) Apache Spark는 어떤 유형의 기계 학습 기술에 적합합니까?

Apache Spark는 클러스터링, 회귀, 분류와 같은 간단한 기계 학습 알고리즘에 이상적입니다.


37) 다른 Rdd에 Apache Spark가 존재하는 중요한 요소를 어떻게 제거할 수 있습니까?

다른 rdd에 있는 키가 있는 요소를 제거하려면 substractkey() 함수를 사용해야 합니다.


38) 스파크에서 체크포인트의 용도는 무엇입니까?

체크포인트를 사용하면 프로그램이 XNUMX시간 내내 실행될 수 있습니다. 또한 애플리케이션 논리에 관계없이 장애에 대한 탄력성을 높이는 데 도움이 됩니다.


39) 계보 그래프를 설명하세요

필요에 따라 각 RDD에 계보 그래프 정보를 컴퓨터로 제공합니다. 따라서 영구 RDD의 일부가 손실될 때마다. 그러한 상황에서는 계보 그래프 정보를 사용하여 이 데이터를 복구할 수 있습니다.


40) 스파크가 지원하는 파일 형식은 무엇입니까?

Spark는 json, tsv, snappy, orc, rc 등의 파일 형식을 지원합니다.


41) 액션이란 무엇입니까?

Action은 RDD의 데이터를 로컬 시스템으로 다시 가져오는 데 도움이 됩니다. 실행은 이전에 생성된 모든 변환의 결과입니다.


42) 원사는 무엇입니까?

Yarn은 Apache Spark의 가장 중요한 기능 중 하나입니다. Yarn에서 Spark를 실행하면 Yarn 지원을 기반으로 구축되므로 Spark의 바이너리 배포가 이루어집니다.


43) Spark 실행자 설명

실행자는 계산을 실행하고 작업자 노드에 데이터를 저장하는 Spark 프로세스입니다. SparkContent의 최종 작업은 실행을 위해 실행기로 전송됩니다.


44) Yarn에서 Spark 애플리케이션을 실행하는 동안 모든 노드에 Spark를 설치해야 합니까?

아니요, Spark는 Yarn 위에서 실행되므로 반드시 모든 노드에 Spark를 설치할 필요는 없습니다.


45) Apache Spark의 작업자 노드란 무엇입니까?

작업자 노드는 클러스터에서 애플리케이션 코드를 실행할 수 있는 모든 노드입니다.


46) Hadoop MapReduce 내에서 Spark 작업을 어떻게 시작할 수 있습니까?

MapReduce의 Spark를 사용하면 사용자는 해당 애플리케이션의 관리자 권한을 얻을 필요 없이 MapReduce 내에서 모든 종류의 Spark 작업을 실행할 수 있습니다.


47) 누적된 메타데이터를 관리하기 위해 Spark에서 자동 정리를 실행하는 프로세스를 설명하세요.

'spark.cleaner.ttf' 매개변수를 확인하거나 장기 실행 작업을 다양한 배치로 분리하고 중간 결과를 디스크에 기록하여 자동 정리를 실행할 수 있습니다.


48) Blinkdb의 사용법을 설명하세요

BlinkDB는 엄청난 양의 데이터에 대해 SQL 쿼리를 실행하고 의미 있는 오류 막대에 쿼리 결과를 렌더링할 수 있는 쿼리 엔진 도구입니다.


49) Hoe Spark는 독립형 모드에서 모니터링 및 로깅을 처리합니까?

예, Spark는 웹 기반 사용자 인터페이스를 갖추고 있으므로 독립 실행형 모드에서 모니터링 및 로그인을 처리할 수 있습니다.


50) 주어진 작업이 변환인지 작업인지 어떻게 확인할 수 있나요?

반환 유형에 따라 작업을 식별할 수 있습니다. 반환 유형이 RDD가 아닌 경우 작업은 작업입니다. 그러나 반환 유형이 RDD와 동일하면 작업은 변환입니다.


51) Apache Spark를 사용하여 Cassandra 데이터베이스에 저장된 데이터를 분석하고 액세스할 수 있습니까?

예, Cassandra 데이터베이스에 저장된 데이터에 액세스하고 분석할 수 있는 Spark Cassandra 커넥터를 사용할 수 있습니다.


52) Spark SQL과 Hql의 차이점을 설명하세요.

SparkSQL은 Spark Core 엔진의 필수 구성 요소입니다. 구문을 변경하지 않고 SQL 및 Hive 쿼리 언어를 지원합니다.

이 인터뷰 질문은 당신의 비바(구술)에도 도움이 될 것입니다.

공유

댓글을 남겨주세요.

귀하의 이메일 주소는 공개되지 않습니다. *표시항목은 꼭 기재해 주세요. *