상위 30개 데이터 분석가 인터뷰 질문 및 답변(2024)

다음은 꿈의 직업을 얻기 위한 신입생과 숙련된 데이터 분석 후보자를 위한 데이터 분석가 인터뷰 질문과 답변입니다.

무료 PDF 다운로드: 데이터 분석가 인터뷰 질문

1) 데이터 분석가의 책임은 무엇인지 언급하세요.

데이터 분석가의 책임은 다음과 같습니다.

  • 모든 데이터 분석을 지원하고 고객 및 직원과 협력합니다.
  • 고객의 비즈니스 관련 문제를 해결하고 수행합니다. 회계 감사 데이터에
  • 통계기법을 활용하여 결과를 분석하고 데이터를 해석하며 지속적인 보고서 제공
  • 비즈니스 요구사항의 우선순위를 정하고 관리 및 정보 요구사항과 긴밀히 협력합니다.
  • 개선 기회가 있는 새로운 프로세스 또는 영역 식별
  • 복잡한 데이터 세트의 추세나 패턴을 분석, 식별 및 해석합니다.
  • 기본 또는 보조 데이터 소스에서 데이터 수집 및 데이터베이스/데이터 시스템 유지 관리
  • 데이터를 필터링 및 "정리"하고 컴퓨터 보고서를 검토합니다.
  • 코드 문제를 찾아 수정하기 위한 성능 지표 결정
  • 사용자의 접근등급을 판단하여 접근시스템을 개발하여 데이터베이스 확보

2) 데이터 분석가가 되기 위해서는 무엇이 필요한가요?

데이터 분석가가 되려면,

  • 보고 패키지(비즈니스 개체), 프로그래밍 언어(XML, Javascript 또는 ETL 프레임워크), 데이터베이스(SQL, SQL이테 등)
  • 빅데이터를 정확하게 분석, 정리, 수집, 전파하는 능력을 갖춘 강력한 능력
  • 데이터베이스 설계, 데이터 모델, 데이터 마이닝 및 분할 기술에 대한 기술 지식
  • 대규모 데이터세트 분석을 위한 통계 패키지에 대한 풍부한 지식(SAS, 뛰어나다, SPSS 등)


3) 분석 프로젝트의 다양한 단계는 무엇입니까?

분석 프로젝트의 다양한 단계에는 다음이 포함됩니다.

  • 문제 정의
  • 데이터 탐색
  • 데이터 준비
  • 모델링
  • 데이터 검증
  • 구현 및 추적

4) 데이터 클렌징이 무엇인지 언급해주세요.

데이터 정리는 데이터 정리라고도 하며, 데이터의 품질을 향상시키기 위해 데이터에서 오류와 불일치를 식별하고 제거하는 작업을 다룹니다.


5) 데이터 정리에 대한 모범 사례를 나열해 보세요.

데이터 정리에 대한 모범 사례 중 일부는 다음과 같습니다.

  • 다양한 속성을 기준으로 데이터 정렬
  • 대규모 데이터세트의 경우 단계적으로 정리하고 좋은 데이터 품질을 얻을 때까지 각 단계마다 데이터를 개선합니다.
  • 대규모 데이터 세트의 경우 작은 데이터로 나눕니다. 더 적은 데이터로 작업하면 반복 속도가 향상됩니다.
  • 일반적인 정리 작업을 처리하려면 유틸리티 함수/도구/스크립트 세트를 만듭니다. 여기에는 CSV 파일 또는 SQL 데이터베이스를 기반으로 값을 다시 매핑하거나 정규식 검색 및 바꾸기, 정규식과 일치하지 않는 모든 값 비우기 등이 포함될 수 있습니다.
  • 데이터 정리에 문제가 있는 경우 예상 빈도별로 정렬하고 가장 일반적인 문제를 공격합니다.
  • 컬럼별 요약통계 분석(표준편차, 평균, 결측값 개수)
  • 모든 날짜 정리 작업을 추적하여 필요한 경우 변경 사항을 변경하거나 작업을 제거할 수 있습니다.
데이터 분석가 인터뷰 질문
데이터 분석가 인터뷰 질문

6) 무엇인지 설명해보세요. 기호 논리학의 회귀?

로지스틱 회귀는 결과를 정의하는 하나 이상의 독립 변수가 있는 데이터 세트를 검사하기 위한 통계 방법입니다.


7) 데이터 분석에 유용할 수 있는 최고의 도구 목록은 무엇입니까?

다음은 최고의 데이터 분석 도구입니다.

  • Tableau
  • 래피드 마이너
  • 오픈리파인
  • KNIME
  • Google 검색 연산자
  • 해결사
  • NodeXL
  • io
  • 볼프람 알파
  • Google Fusion 테이블

8) 데이터 마이닝과 데이터 프로파일링의 차이점은 무엇입니까?

데이터 마이닝과 데이터 프로파일링의 차이점은 다음과 같습니다.

데이터 프로파일링: 개별 속성의 인스턴스 분석을 목표로 합니다. 값 범위, 이산 값 및 빈도, Null 값 발생, 데이터 유형, 길이 등과 같은 다양한 속성에 대한 정보를 제공합니다.

데이터 수집: 클러스터 분석, 비정상적인 레코드 감지, 종속성, 시퀀스 검색, 여러 속성 간의 관계 유지 등에 중점을 둡니다.

ID-100353945


9) 데이터 분석가가 직면하는 몇 가지 일반적인 문제를 나열해 보세요.

데이터 분석가가 직면하는 일반적인 문제 중 일부는 다음과 같습니다.

  • 일반적인 맞춤법 오류
  • 중복된 항목
  • 결 측값
  • 잘못된 값
  • 다양한 값 표현
  • 중복되는 데이터 식별

10) 분산 컴퓨팅 환경에서 애플리케이션용 대용량 데이터 세트를 처리하기 위해 Apache가 개발한 프레임워크의 이름을 언급해 주시겠습니까?

하둡 MapReduce는 분산 컴퓨팅 환경에서 애플리케이션용 대용량 데이터 세트를 처리하기 위해 Apache가 개발한 프로그래밍 프레임워크입니다.


11) 일반적으로 관찰되는 누락 패턴은 무엇인지 언급하세요.

일반적으로 관찰되는 누락된 패턴은 다음과 같습니다.

  • 무작위로 완전히 누락됨
  • 무작위로 누락됨
  • 누락은 누락된 값 자체에 따라 달라집니다.
  • 관찰되지 않은 입력 변수에 따라 누락됨

12) KNN 대치법이 무엇인지 설명해주세요.

KNN 대치에서는 값이 누락된 속성과 가장 유사한 속성 값을 사용하여 누락된 속성 값을 대치합니다. 거리 함수를 사용하여 두 속성의 유사성을 결정합니다.


3) 데이터 분석가가 사용하는 데이터 검증 방법은 무엇입니까?

일반적으로 데이터 분석가가 데이터 검증을 위해 사용하는 방법은 다음과 같습니다.

  • 데이터 스크리닝
  • 데이터 검증

14) 의심되거나 누락된 데이터에 대해 어떻게 해야 하는지 설명해주세요.

  • 의심되는 모든 데이터에 대한 정보를 제공하는 검증 보고서를 준비합니다. 실패한 검증 기준, 발생 날짜 및 시간과 같은 정보를 제공해야 합니다.
  • 경험담당자는 의심스러운 데이터를 조사하여 수용 가능성을 판단해야 합니다.
  • 유효하지 않은 데이터를 할당하고 검증 코드로 교체해야 합니다.
  • 누락된 데이터를 처리하려면 삭제 방법, 단일 대치 방법, 모델 기반 방법 등과 같은 최상의 분석 전략을 사용하십시오.

15) 다중 소스 문제를 처리하는 방법을 언급합니까?

다중 소스 문제를 해결하려면,

  • 스키마 통합을 달성하기 위한 스키마 재구성
  • 유사한 기록을 식별하고 중복 없이 모든 관련 속성을 포함하는 단일 기록으로 병합합니다.

16) 아웃라이어(Outlier)가 무엇인지 설명해주세요.

이상값은 표본의 전체 패턴에서 멀리 나타나고 분기되는 값을 언급하는 분석가가 일반적으로 사용하는 용어입니다. 아웃라이어에는 두 가지 유형이 있습니다.

  • 일 변량
  • 다 변수

17) 계층적 클러스터링 알고리즘이 무엇인지 설명하세요.

계층적 클러스터링 알고리즘은 기존 그룹을 결합 및 분할하여 그룹이 분할되거나 병합되는 순서를 보여주는 계층 구조를 생성합니다.


18) K-평균 알고리즘이 무엇인지 설명해주세요.

K 평균은 유명한 분할 방법입니다. 개체는 K 그룹 중 하나에 속하는 것으로 분류되며, k는 선험적으로 선택됩니다.

K-평균 알고리즘에서,

  • 클러스터는 구형입니다. 클러스터의 데이터 포인트는 해당 클러스터를 중심으로 위치합니다.
  • 클러스터의 분산/확산은 유사합니다. 각 데이터 포인트는 가장 가까운 클러스터에 속합니다.

19) 데이터 분석가에게 필요한 핵심 기술은 무엇입니까?

데이터 과학자는 다음과 같은 기술을 갖추어야 합니다.

  • 데이터베이스 지식
  • 데이터베이스 관리
  • 데이터 혼합
  • 쿼리
  • 데이터 조작
  • 예측 분석
  • 기본 기술통계
  • 예측 모델링
  • 고급 분석
  • 빅데이터 지식
  • 빅 데이터 분석
  • 비정형 데이터 분석
  • 기계 학습
  • 프레젠테이션 스킬
  • 데이터 시각화
  • 통찰력 프레젠테이션
  • 보고서 디자인

20) 협업 필터링이 무엇인지 설명해주세요.

협업 필터링은 사용자 행동 데이터를 기반으로 추천 시스템을 생성하는 간단한 알고리즘입니다. 협업 필터링의 가장 중요한 구성 요소는 다음과 같습니다. 사용자-항목-관심사.

협업 필터링의 좋은 예는 온라인 쇼핑 사이트에서 검색 기록을 기반으로 팝업되는 "추천"과 같은 문구를 보는 경우입니다.


21) 빅데이터에 사용되는 도구가 무엇인지 설명해주세요.

빅데이터에 사용되는 도구는 다음과 같습니다.

  • 하둡
  • 하이브
  • 돼지
  • 독감
  • 코끼리 부리는 사람
  • 스쿱

22) KPI, 실험계획법, 80/20 법칙이 무엇인지 설명해주세요.

KPI: 핵심성과지표(Key Performance Indicator)의 약어로, 비즈니스 프로세스에 대한 스프레드시트, 보고서, 차트의 조합으로 구성된 측정항목입니다.

실험 설계: 통계 분석을 위해 데이터를 분할하고, 샘플링하고, 데이터를 설정하는 초기 프로세스입니다.

80/20 규칙: 수입의 80%가 20%의 고객에게서 나온다는 뜻입니다.


23) Map Reduce가 무엇인지 설명해주세요.

Map-Reduce는 대규모 데이터 세트를 처리하고, 이를 하위 세트로 나누고, 각 하위 세트를 다른 서버에서 처리한 다음, 각각에서 얻은 결과를 혼합하는 프레임워크입니다.


24) 클러스터링이 무엇인지 설명해주세요. 클러스터링 알고리즘의 속성은 무엇입니까?

클러스터링은 데이터에 적용되는 분류 방법입니다. 클러스터링 알고리즘은 데이터 세트를 자연 그룹 또는 클러스터로 나눕니다.

클러스터링 알고리즘의 속성은 다음과 같습니다.

  • 계층적 또는 평면적
  • 반복적 인
  • 단단하고 부드러움
  • 분리형

25) 데이터 분석가에게 유용한 통계 방법에는 어떤 것이 있나요?

데이터 과학자에게 유용한 통계적 방법은 다음과 같습니다.

  • 베이지안 방법
  • 마르코프 과정
  • 공간 및 클러스터 프로세스
  • 순위 통계, 백분위수, 이상치 감지
  • 대치 기술 등
  • 단순 알고리즘
  • 수학적 최적화

26) 시계열분석이란 무엇인가요?

시계열 분석은 주파수 영역과 시간 영역의 두 영역에서 수행할 수 있습니다. 시계열 분석에서는 지수 평활화, 로그 선형 회귀 방법 등과 같은 다양한 방법을 사용하여 이전 데이터를 분석하여 특정 프로세스의 결과를 예측할 수 있습니다.


27) 상관도형 분석이 무엇인지 설명해주세요.

상관도형 분석은 지리학에서 공간 분석의 일반적인 형태입니다. 이는 다양한 공간 관계에 대해 계산된 일련의 추정 자기상관 계수로 구성됩니다. 원시 데이터를 개별 지점의 값이 아닌 거리로 표현하는 경우 거리 기반 데이터에 대한 상관도를 구성하는 데 사용할 수 있습니다.


28) 해시 테이블이란 무엇입니까?

컴퓨팅에서 해시 테이블은 키와 값의 매핑입니다. 이것은 데이터 구조 연관 배열을 구현하는 데 사용됩니다. 해시 함수를 사용하여 인덱스를 계산합니다. 정렬 원하는 값을 가져올 수 있는 슬롯 수입니다.


29) 해시 테이블 충돌이란 무엇입니까? 어떻게 피합니까?

해시 테이블 충돌은 서로 다른 두 키가 동일한 값으로 해시될 때 발생합니다. 두 개의 데이터를 배열의 동일한 슬롯에 저장할 수 없습니다.

해시 테이블 충돌을 방지하기 위한 많은 기술이 있습니다. 여기서는 두 가지를 나열합니다.

  • 별도의 체인:

데이터 구조를 사용하여 동일한 슬롯에 해시되는 여러 항목을 저장합니다.

  • 개방 주소 지정:

두 번째 함수를 사용하여 다른 슬롯을 검색하고 발견된 첫 번째 빈 슬롯에 항목을 저장합니다.


29) 전가(imputation)가 무엇인지 설명해주세요. 다양한 유형의 대치 기술을 나열해 보세요.

대치 중에 누락된 데이터를 대체 값으로 바꿉니다. 관련된 대체 기술의 유형은 다음과 같습니다.

  • 단일 대치
  • 핫데크 대치(Hot-deck Imputation): 펀치 카드를 사용하여 무작위로 선택된 유사한 레코드에서 결측값을 대치합니다.
  • 콜드 데크 대체: 핫 데크 대체와 동일하게 작동하지만 더 발전되었으며 다른 데이터 세트에서 기증자를 선택합니다.
  • 평균 대치: 다른 모든 경우에 대해 누락된 값을 해당 변수의 평균으로 바꾸는 작업이 포함됩니다.
  • 회귀 대치: 누락된 값을 다른 변수를 기반으로 한 변수의 예측 값으로 바꾸는 작업이 포함됩니다.
  • 확률적 회귀: 회귀대체와 동일하지만 회귀대체에 평균 회귀 분산을 추가합니다.
  • 다중 대치
  • 단일 대치와 달리 다중 대치에서는 값을 여러 번 추정합니다.

30) 어떤 전가 방식이 더 유리한가요?

단일 대치(Single Imputation)가 널리 사용되지만, 무작위로 누락된 데이터로 인해 발생하는 불확실성을 반영하지 않습니다. 따라서 데이터가 무작위로 누락된 경우 다중 대체가 단일 대체보다 더 유리합니다.


31) n-gram이 무엇인지 설명해주세요.

N-그램:

n-그램은 주어진 텍스트 또는 음성 시퀀스에서 n개 항목의 연속 시퀀스입니다. (n-1) 형태의 시퀀스에서 다음 항목을 예측하기 위한 일종의 확률적 언어 모델입니다.


32) 좋은 데이터 모델의 기준이 무엇인지 설명해주세요.

좋은 데이터 모델의 기준은 다음과 같습니다.

  • 간편하게 섭취할 수 있어요
  • 좋은 모델의 대규모 데이터 변경은 확장 가능해야 합니다.
  • 예측 가능한 성능을 제공해야 합니다.
  • 좋은 모델은 요구 사항의 변화에 ​​적응할 수 있습니다.

이 인터뷰 질문은 당신의 비바(구술)에도 도움이 될 것입니다.

공유

댓글 13

  1. 화신 아제 말한다 :

    좋은 답변 모음입니다. 짧고 달다

  2. 화신 미치 말한다 :

    질문 #6에 대한 대답은 부분적으로만 맞습니다. 로지스틱 회귀는 하나 이상의 설명/독립 변수를 기반으로 어떤 일이 발생할 확률/확률을 결정하는 것을 다룹니다. 그래도 다른 건 다 훌륭해요! 감사해요.

    1. 화신 Sneha 말한다 :

      네, 저도 같은 생각이었습니다. 답은 절반에 불과합니다.

  3. 화신 기드온 말한다 :

    정말 좋아요, 고마워요

  4. 화신 오도이 스티븐 말한다 :

    정말 도움이 많이 되는 글 감사합니다

  5. 화신 말한다 :

    요약이 잘되어 있고 매우 도움이 됩니다

  6. 화신 보상 문시싱가 말한다 :

    감사합니다 정보가 도움이 되었어요

  7. 화신 오리 아나 말한다 :

    아주 좋아요

  8. 화신 와쳄바 아무자 말한다 :

    나는 인터뷰 답변에 관심이 있고 내 메일을 통해 그것을 받고 싶습니다. 이 답변에 대한 귀하의 모든 노력에 감사드립니다.

  9. 화신 테페리 카넬라 말한다 :

    비즈니스에 매우 유용하고 탁월한 가이드입니다.

  10. 화신 마크 데그 말한다 :

    읽어볼 가치가 있어요!!! 감사합니다

  11. 화신 케이 공주 말한다 :

    와 이거 정말 대단하다

  12. 화신 유수프 모하메드 말한다 :

    뭔가를 배울 수 있는 기회를 주셔서 감사합니다

댓글을 남겨주세요.

귀하의 이메일 주소는 공개되지 않습니다. *표시항목은 꼭 기재해 주세요. *