50 câu hỏi và câu trả lời phỏng vấn về kho dữ liệu hàng đầu

Dưới đây là những câu hỏi và câu trả lời phỏng vấn Data Warehouse dành cho cả ứng viên mới và có kinh nghiệm để có được công việc mơ ước của mình.

1) Kho dữ liệu là gì?

Kho dữ liệu (DW) là kho lưu trữ dữ liệu và được sử dụng cho hệ thống hỗ trợ quyết định quản lý. Kho dữ liệu bao gồm nhiều loại dữ liệu có mức độ điều kiện kinh doanh cao tại một thời điểm duy nhất.

Nói một cách đơn giản, đó là kho lưu trữ thông tin tích hợp có thể sử dụng để truy vấn và phân tích.


2) là gì Trí tuệ kinh doanh?

Business Intelligence còn được gọi là DSS – Hệ thống hỗ trợ quyết định, đề cập đến các công nghệ, ứng dụng và thực hành để thu thập, tích hợp và phân tích thông tin hoặc dữ liệu liên quan đến doanh nghiệp. Thậm chí, nó còn giúp xem dữ liệu trên chính thông tin đó.

Tải xuống PDF miễn phí: Câu hỏi và câu trả lời phỏng vấn Data Warehouse


3) Bảng Dimension là gì?

Bảng chiều là bảng chứa các thuộc tính của phép đo được lưu trữ trong các bảng thực tế. Bảng này bao gồm các phân cấp, danh mục và logic có thể được sử dụng để duyệt qua các nút.


4) Fact Table là gì?

Bảng dữ kiện chứa phép đo các quy trình kinh doanh và chứa khóa ngoại cho các bảng chiều.

Ví dụ – Nếu quy trình kinh doanh là sản xuất gạch

Số lượng gạch trung bình do một người/máy sản xuất – thước đo quy trình kinh doanh


5) Các giai đoạn của Datawarehousing là gì?

Có bốn giai đoạn của Datawarehousing:

kho dữ liệu
kho dữ liệu
  • Cơ sở dữ liệu hoạt động ngoại tuyến
  • Kho dữ liệu ngoại tuyến
  • Kho dữ liệu thời gian thực
  • Kho dữ liệu tích hợp

6) Khai thác dữ liệu là gì?

Khai thác dữ liệu được thiết lập là một quá trình phân tích dữ liệu theo nhiều chiều hoặc góc nhìn khác nhau và tóm tắt thành thông tin hữu ích. Có thể truy vấn và lấy dữ liệu từ cơ sở dữ liệu theo định dạng riêng của chúng.


7) OLTP là gì?

OLTP là viết tắt của On-Line Transaction Processing, là ứng dụng sửa đổi dữ liệu bất cứ khi nào nhận được và có số lượng người dùng đồng thời lớn.

Câu hỏi phỏng vấn Kho dữ liệu
Câu hỏi phỏng vấn Kho dữ liệu

8) OLAP là gì?

OLAP là viết tắt của Online Analytical Processing, là hệ thống thu thập, quản lý, xử lý dữ liệu đa chiều phục vụ mục đích phân tích và quản lý.


9) Sự khác biệt giữa OLTP và OLAP là gì?

Sau đây là những điểm khác biệt giữa OLTP và OLAP:

OLTP OLAP
Dữ liệu được lấy từ nguồn dữ liệu gốc Dữ liệu từ nhiều nguồn dữ liệu khác nhau
Các truy vấn đơn giản của người dùng Các truy vấn phức tạp theo hệ thống
Cơ sở dữ liệu nhỏ được chuẩn hóa Cơ sở dữ liệu lớn không chuẩn hóa
Nhiệm vụ kinh doanh cơ bản Nhiệm vụ kinh doanh đa chiều

10) ODS là gì?

ODS là viết tắt của Operational Data Store và là kho lưu trữ dữ liệu hoạt động theo thời gian thực chứ không phải dữ liệu xu hướng dài hạn.


11) Sự khác biệt giữa View và Materialized View là gì?

Chế độ xem không gì khác ngoài một bảng ảo lấy kết quả đầu ra của truy vấn và có thể được sử dụng thay cho bảng.

Chế độ xem thực thể không gì khác ngoài việc truy cập gián tiếp vào dữ liệu bảng bằng cách lưu trữ kết quả của truy vấn trong một lược đồ riêng biệt.


12) ETL là gì?

ETL được viết tắt là Extract (Trích xuất), Transform (Chuyển đổi) và Load (Tải). ETL là phần mềm được sử dụng để đọc dữ liệu từ nguồn dữ liệu được chỉ định và trích xuất một tập hợp dữ liệu mong muốn. Tiếp theo, nó chuyển đổi dữ liệu bằng các quy tắc và bảng tra cứu và chuyển đổi nó sang trạng thái mong muốn.

Sau đó, hàm load được sử dụng để tải dữ liệu kết quả vào cơ sở dữ liệu đích.


13) VLDB là gì?

VLDB được viết tắt là Very Large Database và kích thước của nó được thiết lập là hơn một terabyte cơ sở dữ liệu. Đây là các hệ thống hỗ trợ quyết định được sử dụng để phục vụ số lượng lớn người dùng.


14) Kho dữ liệu thời gian thực là gì?

Kho dữ liệu thời gian thực nắm bắt dữ liệu kinh doanh bất cứ khi nào nó xảy ra. Khi có hoạt động kinh doanh được hoàn thành, dữ liệu đó sẽ có sẵn trong luồng và có thể sử dụng ngay lập tức.


15) Bảng tổng hợp là gì?

Bảng tổng hợp là các bảng chứa dữ liệu kho hiện có đã được nhóm theo một cấp độ kích thước nhất định. Dễ dàng truy xuất dữ liệu từ các bảng tổng hợp hơn là bảng gốc có nhiều bản ghi hơn.

Bảng này giảm tải trong máy chủ cơ sở dữ liệu và tăng hiệu suất của truy vấn.


16) Bảng dữ kiện không có dữ kiện là gì?

Bảng dữ kiện không có dữ kiện là bảng dữ kiện không chứa cột dữ kiện số trong bảng dữ kiện.


17) Làm thế nào chúng ta có thể tải chiều thời gian?

Các chiều thời gian thường được tải qua tất cả các ngày có thể trong một năm và có thể thực hiện thông qua một chương trình. Ở đây, 100 năm có thể được biểu diễn bằng một hàng mỗi ngày.


18) Sự kiện không cộng tính là gì?

Sự kiện không gây nghiện được cho là sự kiện không thể được tóm tắt cho bất kỳ chiều nào có trong bảng sự kiện. Nếu có sự thay đổi trong các chiều, thì những sự kiện tương tự có thể hữu ích.


19) Sự thật phù hợp là gì?

Bảng dữ liệu được tuân thủ là bảng có thể được sử dụng trên nhiều kho dữ liệu kết hợp với nhiều bảng dữ liệu.


20) Datamart là gì?

Datamart là phiên bản chuyên biệt của Datawarehousing và nó chứa một bản chụp nhanh dữ liệu hoạt động giúp các doanh nhân đưa ra quyết định bằng cách phân tích các xu hướng và kinh nghiệm trong quá khứ. Datamart giúp nhấn mạnh vào việc dễ dàng truy cập vào thông tin có liên quan.


21) Active Datawarehousing là gì?

Kho dữ liệu chủ động là kho dữ liệu cho phép những người ra quyết định trong công ty hoặc tổ chức quản lý mối quan hệ với khách hàng một cách hiệu quả.


22) Sự khác biệt giữa Datawarehouse và OLAP là gì?

Datawarehouse là nơi lưu trữ toàn bộ dữ liệu để phân tích, nhưng OLAP được sử dụng để phân tích dữ liệu, quản lý tổng hợp, phân vùng thông tin thành thông tin cấp độ nhỏ hơn.


23) Sơ đồ ER là gì?

Biểu đồ ER là viết tắt của Biểu đồ thực thể - mối quan hệ, minh họa mối quan hệ giữa các thực thể trong cơ sở dữ liệu. Biểu đồ này hiển thị cấu trúc của từng bảng và các liên kết giữa các bảng.

Sơ đồ ER

24) Các cột chính trong bảng Sự kiện và bảng chiều là gì?

Khóa ngoại của bảng chiều là khóa chính của bảng thực thể. Khóa ngoại của bảng sự kiện là khóa chính của bảng chiều.


25) SCD là gì?

SCD được định nghĩa là các chiều thay đổi chậm và áp dụng cho các trường hợp bản ghi thay đổi theo thời gian.


26) Có những loại SCD nào?

Có ba loại SCD như sau:

SCD 1 – Bản ghi mới thay thế bản ghi gốc

SCD 2 – Một bản ghi mới được thêm vào bảng kích thước khách hàng hiện tại

SCD 3 – Dữ liệu gốc được sửa đổi để bao gồm dữ liệu mới


27) Sơ đồ BUS là gì?

Sơ đồ BUS bao gồm bộ chiều được xác nhận và định nghĩa chuẩn hóa nếu có bảng dữ kiện.


28) Sơ đồ ngôi sao là gì?

Sơ đồ ngôi sao không gì khác hơn là một kiểu tổ chức các bảng theo cách mà kết quả có thể được truy xuất nhanh chóng từ cơ sở dữ liệu trong môi trường kho dữ liệu.

Lược đồ sao

29) Snowflake Schema là gì?

Sơ đồ bông tuyết có bảng chiều chính mà một hoặc nhiều chiều có thể được nối vào. Bảng chiều chính là bảng duy nhất có thể được nối với bảng sự kiện.

Lược đồ bông tuyết

30) Chiều cốt lõi là gì?

Kích thước cốt lõi không gì khác ngoài một bảng Kích thước được sử dụng chuyên dụng cho bảng dữ liệu đơn lẻ hoặc kho dữ liệu.


31) Thế nào gọi là dọn dẹp dữ liệu?

Bản thân tên gọi đã ngụ ý rằng đây là một thuật ngữ tự giải thích. Dọn dẹp hồ sơ mồ côi, Dữ liệu vi phạm quy tắc kinh doanh, Dữ liệu không nhất quán và thông tin bị thiếu trong cơ sở dữ liệu.


32) Siêu dữ liệu là gì?

Siêu dữ liệu được định nghĩa là dữ liệu về dữ liệu. Siêu dữ liệu chứa thông tin như số lượng cột được sử dụng, chiều rộng cố định và chiều rộng giới hạn, thứ tự các trường và kiểu dữ liệu của các trường.


33) Vòng lặp trong Datawarehousing là gì?

Trong kho dữ liệu, các vòng lặp tồn tại giữa các bảng. Nếu có vòng lặp giữa các bảng, thì việc tạo truy vấn sẽ mất nhiều thời gian hơn và tạo ra sự mơ hồ. Nên tránh vòng lặp giữa các bảng.


34) Bảng Dimension có thể có giá trị số không?

Có, bảng kích thước có thể có giá trị số vì chúng là các yếu tố mô tả hoạt động kinh doanh của chúng tôi.


35) Định nghĩa về Cube trong Datawarehousing là gì?

Khối lập phương là biểu diễn logic của dữ liệu đa chiều. Cạnh của khối lập phương có các thành phần chiều và thân khối lập phương chứa các giá trị dữ liệu.


36) Mô hình hóa chiều được gọi là gì?

Dimensional Modeling là một khái niệm có thể được các nhà thiết kế dataware house sử dụng để xây dựng datawarehouse của riêng họ. Mô hình này có thể được lưu trữ trong hai loại bảng – Facts và Dimension table.

Bảng dữ kiện chứa các dữ kiện và phép đo của doanh nghiệp và bảng chiều chứa bối cảnh của phép đo.


37) Các loại Mô hình hóa chiều là gì?

Sau đây là Các loại kích thước trong kho dữ liệu:

  • Kích thước phù hợp
  • Kích thước Outrigger
  • Kích thước thu nhỏ
  • Kích thước nhập vai
  • Bảng kích thước với kích thước
  • Thứ nguyên rác
  • Kích thước thoái hóa
  • Thứ nguyên có thể thay đổi
  • Kích thước bước

38) Khóa thay thế là gì?

Khóa thay thế không gì khác ngoài một khóa thay thế cho khóa chính tự nhiên. Nó được thiết lập để trở thành một mã định danh duy nhất cho mỗi hàng có thể được sử dụng làm khóa chính cho một bảng.


39) Sự khác biệt giữa Mô hình ER và Mô hình chiều là gì?

Mô hình ER sẽ có mô hình logic và mô hình vật lý nhưng mô hình đa chiều sẽ chỉ có mô hình vật lý.

Mô hình ER được sử dụng để chuẩn hóa thiết kế cơ sở dữ liệu OLTP trong khi Mô hình hóa chiều được sử dụng để phi chuẩn hóa thiết kế ROLAP và MOLAP.


40) Các bước để xây dựng kho dữ liệu là gì?

Sau đây là các bước cần thực hiện để xây dựng kho dữ liệu:

  • Thu thập các yêu cầu kinh doanh
  • Xác định các nguồn cần thiết
  • Xác định sự thật
  • Xác định kích thước
  • Xác định các thuộc tính
  • Xác định lại các thứ nguyên và thuộc tính nếu được yêu cầu
  • Tổ chức phân cấp thuộc tính
  • Xác định mối quan hệ
  • Chỉ định số nhận dạng duy nhất

41) Có những loại kho dữ liệu nào?

Sau đây là các loại Kho dữ liệu khác nhau:

  • Kho dữ liệu doanh nghiệp
  • Kho dữ liệu hoạt động
  • Dữ liệu Mart

42) Cần phải làm gì khi khởi động cơ sở dữ liệu?

Cần thực hiện những bước sau để khởi động cơ sở dữ liệu:

  1. Bắt đầu một phiên bản
  2. Gắn cơ sở dữ liệu
  3. Mở cơ sở dữ liệu

43) Cần phải làm gì khi cơ sở dữ liệu bị tắt?

Những việc sau đây cần phải thực hiện khi cơ sở dữ liệu bị tắt:

  1. Đóng cơ sở dữ liệu
  2. Tháo dỡ cơ sở dữ liệu
  3. Tắt Instance

44) Chúng ta có thể sao lưu khi cơ sở dữ liệu được mở không?

Có, chúng ta có thể sao lưu toàn bộ khi cơ sở dữ liệu được mở.


45) Sao lưu một phần được định nghĩa như thế nào?

Một bản sao lưu một phần trong hệ điều hành là bản sao lưu chưa đầy đủ và có thể được thực hiện khi cơ sở dữ liệu đang mở hoặc tắt.


46) Mục tiêu của Optimizer là gì?

Mục tiêu của Optimizer là tìm ra cách hiệu quả nhất để thực hiện SQL các câu lệnh.


47) Kế hoạch thực hiện là gì?

Kế hoạch thực hiện là một kế hoạch được trình tối ưu hóa sử dụng để lựa chọn sự kết hợp của các bước.


48) Optimizer sử dụng những phương pháp nào trong quá trình thực hiện kế hoạch?

Có hai cách tiếp cận:

  1. Dựa trên quy tắc
  2. Dựa trên chi phí

49) Có những công cụ nào dành cho ETL?

Sau đây là các công cụ ETL có sẵn:

Tin học
Giai đoạn dữ liệu
Oracle
Người xây dựng kho
ban đầu
Ngã ba dữ liệu


50) Sự khác biệt giữa siêu dữ liệu và từ điển dữ liệu là gì?

Siêu dữ liệu được định nghĩa là dữ liệu về dữ liệu. Nhưng từ điển dữ liệu chứa thông tin về thông tin dự án, biểu đồ, lệnh abinito và thông tin máy chủ.

Những câu hỏi phỏng vấn này cũng sẽ giúp ích cho bài thi viva(orals) của bạn

Chia sẻ

21 Comments

    1. cách cài đặt phần mềm công cụ etl datastage trong windows10 của tôi

  1. Shiv Gautam nói:

    Cảm ơn bạn đã chia sẻ thông tin

    1. hình đại diện sai srinivas nói:

      hii
      pls
      nhà kho dữ liệu giải thích và lý thuyết

  2. hình đại diện Ekta Soni nói:

    Thông tin rất hữu ích .. Cảm ơn :)

  3. hình đại diện Grahi Parmar nói:

    Các loại SCD không theo đúng trình tự.
    Loại 0 – Kích thước cố định
    Không được phép thay đổi, kích thước không bao giờ thay đổi
    Loại 1 – Không có tiền sử
    Cập nhật hồ sơ trực tiếp, không có hồ sơ giá trị lịch sử, chỉ có trạng thái hiện tại
    Kiểu 2 – Phiên bản hàng
    Theo dõi các thay đổi dưới dạng bản ghi phiên bản với cờ hiện tại & ngày hoạt động và siêu dữ liệu khác
    Loại 3 – Cột Giá trị trước đó
    Theo dõi thay đổi đối với một thuộc tính cụ thể, thêm một cột để hiển thị giá trị trước đó, giá trị này được cập nhật khi có thêm những thay đổi xảy ra
    Loại 4 – Bảng Lịch sử
    Hiển thị giá trị hiện tại trong bảng kích thước nhưng theo dõi tất cả các thay đổi trong một bảng riêng biệt
    Loại 6 – SCD lai
    Sử dụng các kỹ thuật từ SCD Loại 1, 2 và 3 để theo dõi sự thay đổi

    1. Srividya Krishnamoorthy nói:

      Cảm ơn .. Điều này hữu ích

  4. hình đại diện Cây chàm nói:

    Thật hữu ích khi chia sẻ những điều tốt đẹp với mọi người.

  5. hình đại diện Muhammad Abubakar nói:

    Tôi cần trợ giúp để thảo luận câu hỏi này!
    H: Bạn được một cửa hàng lớn thuê làm kỹ sư nhà dữ liệu. Bạn có thể sử dụng quy tắc kết hợp của khai thác dữ liệu như thế nào để tăng doanh số bán hàng của cửa hàng lớn?

  6. hình đại diện Tiến sĩ Darko Petrusic nói:

    44. Chúng ta có thể sao lưu khi cơ sở dữ liệu được mở không?

    Có, chúng ta có thể sao lưu toàn bộ khi cơ sở dữ liệu được mở. Nó được gọi là sao lưu nóng …

    1. Alex Silverman Alex Silverman nói:

      Xin chào, cảm ơn bạn đã chia sẻ suy nghĩ của mình. Đã cập nhật..

  7. Rất tốt thưa ông.
    Cảm ơn vì đã cung cấp những câu hỏi có giá trị và câu trả lời dễ hiểu

  8. hình đại diện đáng yêu nói:

    Thật tuyệt vời, cảm ơn bạn. Nó giúp ích cho tôi rất nhiều.

  9. Cảm ơn bạn, nó đã giúp ích cho tôi.

  10. hình đại diện Asrar Alam nói:

    Nhìn chung thông tin rất hữu ích, Cảm ơn

Bình luận

Chúng tôi sẽ không công khai email của bạn. Các ô đánh dấu * là bắt buộc *