Hive 인터뷰 질문 및 답변 상위 30개(2025)
신입생 및 경력자를 위한 Hive 인터뷰 질문
꿈의 직업을 얻기 위한 신입 지원자와 경력 지원자를 위한 Hive 인터뷰 질문과 답변은 다음과 같습니다.
1) Hive가 무엇인지 설명해주세요.
Hive는 HDFS(Hadoop 분산 파일 시스템)를 기반으로 개발된 ETL 및 데이터 웨어하우징 도구입니다. HDFS에 저장된 데이터를 쿼리하고 분석하기 위한 데이터 웨어하우스 프레임워크입니다. Hive는 프로그래머가 대규모 데이터 세트를 분석할 수 있는 오픈 소스 소프트웨어입니다. 하둡.
2) 언제 Hive를 사용하나요?
- Hive는 만들 때 유용합니다. 데이터웨어 하우스 어플리케이션
- 동적 데이터 대신 정적 데이터를 처리하는 경우
- 애플리케이션의 대기 시간이 긴 경우(응답 시간이 높음)
- 대용량 데이터 세트를 유지하는 경우
- 스크립팅 대신 쿼리를 사용하는 경우
3) Hive의 다양한 모드가 무엇인지 언급해 주세요.
Hadoop의 데이터 노드 크기에 따라 Hive는 두 가지 모드로 작동할 수 있습니다. 이러한 모드는,
- 로컬 모드
- 지도 축소 모드
4) 지도 축소 모드를 언제 사용해야 하는지 언급해 주세요.
지도 축소 모드는 다음과 같은 경우에 사용됩니다.
- 대량의 데이터 세트에 대해 수행되며 쿼리는 병렬 방식으로 실행됩니다.
- Hadoop에는 여러 데이터 노드가 있으며 데이터는 이 모드에서 Hive를 사용하는 여러 노드에 분산됩니다.
- 더 나은 성능으로 대규모 데이터 세트를 처리해야 합니다.
5) Hive 아키텍처의 핵심 구성요소를 언급해 주시겠습니까?
Hive 아키텍처의 주요 구성 요소는 다음과 같습니다.
- 시간을 아껴주는 인터페이스
- 컴파일러
- 메타스토어
- 운전기사
- 엔진 실행
6) Hive에서 사용할 수 있는 다양한 유형의 테이블은 무엇입니까?
Hive에서는 두 가지 유형의 테이블을 사용할 수 있습니다.
- 관리되는 테이블: 관리되는 테이블에서는 데이터와 스키마가 모두 Hive에 의해 제어됩니다.
- 외부 테이블: 외부 테이블에서는 스키마만 Hive의 제어를 받습니다.
7) Hive의 Metastore가 무엇인지 설명해주세요.
Metastore는 Hive의 중앙 저장소입니다. 외부 데이터베이스에 스키마 정보나 메타데이터를 저장하는 데 사용됩니다.
8) Hive가 무엇으로 구성되어 있는지 언급해 주세요.
Hive는 3가지 주요 부분으로 구성됩니다.
- 하이브 클라이언트
- 하이브 서비스
- 하이브 스토리지 및 컴퓨팅
9) Hive가 지원하는 데이터베이스 유형은 무엇입니까?
단일 사용자 메타데이터 저장소의 경우 Hive는 Derby 데이터베이스를 사용하고 다중 사용자 메타데이터 또는 공유 메타데이터 사례의 경우 Hive는 사용합니다. MYSQL.
10) Hive 기본 읽기 및 쓰기 클래스를 언급하시겠습니까?
Hive 기본 읽기 및 쓰기 클래스는 다음과 같습니다.
- TextInputFormat/HiveIgnoreKeyTextOutputFormat
- 시퀀스파일입력형식/시퀀스파일출력형식
11) Hive의 인덱싱이란 무엇입니까?
Hive 인덱싱은 테이블의 특정 열에 대한 쿼리 조회 속도를 향상시키는 쿼리 최적화 기술입니다.
12) Hive가 OLTP 시스템에 적합하지 않은 이유는 무엇입니까?
Hive는 행 수준에서 삽입 및 업데이트 기능을 제공하지 않기 때문에 OLTP 시스템에는 적합하지 않습니다.
13) Hbase와 Hive의 차이점은 무엇입니까?
Hbase와 Hive의 차이점은,
- Hive는 대부분의 SQL 쿼리를 수행하지만 HBase는 SQL 쿼리를 허용하지 않습니다.
- Hive는 테이블에 대한 레코드 수준 삽입, 업데이트 및 삭제 작업을 지원하지 않습니다.
- Hive는 데이터 웨어하우스 프레임워크인 반면 HBase는 NoSQL 데이터베이스입니다.
- Hive는 MapReduce 위에서 실행되고, HBase는 HDFS 위에서 실행됩니다.
14) Hive 변수가 무엇인지 설명해주세요. 우리는 그것을 무엇을 위해 사용합니까?
Hive 변수는 Hive 스크립트에서 참조할 수 있는 Hive 환경에서 생성됩니다. 쿼리 실행이 시작될 때 하이브 쿼리에 일부 값을 전달하는 데 사용됩니다.
15) Hive의 ObjectInspector 기능이 무엇인지 언급해 주세요.
Hive의 ObjectInspector 기능은 열, 행 및 복잡한 개체의 내부 구조를 분석하는 데 사용됩니다. 객체 내부의 내부 필드에 액세스할 수 있습니다.
16) (HS2) HiveServer2가 무엇인지 언급하세요.
다음과 같은 기능을 수행하는 서버 인터페이스입니다.
- 원격 클라이언트가 Hive에 대해 쿼리를 실행할 수 있도록 합니다.
- 언급된 쿼리의 결과를 검색합니다.
최신 버전의 Thrift RPC를 기반으로 한 일부 고급 기능은 다음과 같습니다.
- 다중 클라이언트 동시성
- 인증
17) Hive 쿼리 프로세서의 기능을 언급해 주세요.
Hive 쿼리 프로세서는 실행 시간 프레임워크를 사용하여 MapReduce 작업의 그래프를 변환합니다. 그래야 종속성 순서대로 작업을 실행할 수 있습니다.
18) Hive 쿼리 프로세서의 구성 요소는 무엇입니까?
Hive 쿼리 프로세서의 구성 요소는 다음과 같습니다.
- 논리적 계획 생성
- 물리적 계획 생성
- 실행 엔진
- 연산자
- UDF 및 UDAF
- 최적화
- 파서
- 의미 분석기
- 유형 검사
19) Hive의 파티션이 무엇인지 언급하세요.
Hive는 테이블을 파티션으로 구성합니다.
- 파티션 키를 기준으로 테이블을 여러 부분으로 나누는 방법 중 하나입니다.
- 파티션은 테이블에 하나 이상의 파티션 키가 있는 경우 유용합니다.
- 파티션 키는 데이터가 테이블에 저장되는 방식을 결정하는 기본 요소입니다.
20) Hive에서 언제 "내부 테이블"과 "외부 테이블"을 선택해야 하는지 언급해 주세요.
Hive에서는 내부 테이블을 선택할 수 있습니다.
- 로컬 파일 시스템에서 처리 데이터를 사용할 수 있는 경우
- Hive가 삭제를 포함하여 데이터의 전체 수명주기를 관리하도록 하려는 경우
외부 테이블을 선택할 수 있습니다.
- HDFS에서 데이터 처리가 가능한 경우
- 파일이 Hive 외부에서 사용될 때 유용합니다.
21) Hive 테이블 이름과 동일한 이름을 뷰에 지정할 수 있는지 언급해 주세요.
아니요. 뷰 이름은 다른 모든 테이블과 비교하여 고유해야 하며 동일한 데이터베이스에 있는 뷰로서 고유해야 합니다.
22) Hive의 뷰란 무엇인지 언급해 주세요.
Hive에서 뷰는 테이블과 유사합니다. 요구 사항에 따라 생성됩니다.
- 모든 결과 세트 데이터를 Hive의 뷰로 저장할 수 있습니다.
- 사용법은 SQL에서 사용되는 뷰와 유사합니다.
- 모든 유형의 DML 작업을 뷰에서 수행할 수 있습니다.
23) Hive가 데이터를 역직렬화하고 직렬화하는 방법을 설명하세요.
일반적으로 사용자는 데이터를 읽고 쓸 때 먼저 입력 형식으로 통신합니다. 그런 다음 레코드 리더와 연결하여 레코드를 읽고 씁니다. 데이터를 직렬화하기 위해 데이터는 행으로 이동합니다. 여기서 역직렬화된 사용자 정의 serde는 객체 검사기를 사용하여 필드의 데이터를 역직렬화합니다.
24) Hive의 버킷이란 무엇입니까?
- 파티션에 있는 데이터는 버킷으로 더 나눌 수 있습니다.
- 테이블에서 선택된 특정 컬럼의 Hash를 기준으로 분할이 수행됩니다.
25) Hive에서 버킷을 어떻게 활성화할 수 있습니까?
Hive에서는 다음 명령을 사용하여 버킷을 활성화할 수 있습니다.
set.hive.enforce.bucketing=true;
26) Hive에서는 Hive의 Hadoop MapReduce 구성을 덮어쓸 수 있습니까?
예, Hive에서 Hadoop MapReduce 구성을 덮어쓸 수 있습니다.
27) Hive에서 열 데이터 유형을 어떻게 변경할 수 있는지 설명해주세요.
명령을 사용하여 Hive에서 열 데이터 유형을 변경할 수 있습니다.
ALTER TABLE table_name CHANGE column_name column_name new_datatype;
28) Hive에서 정렬 기준과 정렬 기준의 차이점은 무엇입니까?
- SORT BY는 각 감속기 내의 데이터를 정렬합니다. SORT BY 작업에는 원하는 만큼의 감속기를 사용할 수 있습니다.
- ORDER BY는 하나의 리듀서를 통과해야 하는 모든 데이터를 함께 정렬합니다. 따라서 하이브의 ORDER BY는 단일을 사용합니다.
29) Hive에서 폭발을 언제 사용해야 하는지 설명해주세요.
Hadoop 개발자는 때때로 정렬 입력으로 사용하고 별도의 테이블 행으로 변환합니다. 복잡한 데이터 유형을 원하는 테이블 형식으로 변환하기 위해 Hive는 폭발을 사용합니다.
30) 파티션 양식 쿼리를 어떻게 중지할 수 있는지 언급해 주세요.
ALTER TABLE 문과 함께 ENABLE OFFLINE 절을 사용하면 파티션 양식 쿼리를 중지할 수 있습니다.
이러한 면접 질문은 귀하의 비바(구술)에도 도움이 될 것입니다. 우리를 참조하십시오 하이브 튜토리얼 인터뷰에서 추가적인 우위를 점하세요.
매우 도움이 됩니다…..도움이 됩니다…..면접 준비는 물론 자기 준비에도 도움이 됩니다.
감사합니다! 매우 도움이 됩니다!
제가 면접관이었을 때 보통 이런 질문에 답하라는 요청을 받았기 때문에 "데이터 왜곡"에 대한 몇 가지 질문을 추가할 수 있을 것 같습니다.
당신이 요청한 인터뷰 질문을 추가해주세요