32 найпопулярніших запитань і відповідей на інтерв’ю аналітика даних (2025)

Ось питання та відповіді на співбесіді аналітика даних для новачків, а також досвідчених кандидатів у аналітики даних, щоб отримати роботу своєї мрії.

Безкоштовне завантаження PDF: Запитання для співбесіди аналітика даних

1) Згадайте, що таке відповідальність аналітика даних?

Відповідальність аналітика даних включає:

  • Надавати підтримку для аналізу всіх даних і координувати роботу з клієнтами та персоналом
  • Вирішуйте проблеми, пов’язані з бізнесом, для клієнтів і продуктивності аудит на дані
  • Аналізуйте результати та інтерпретуйте дані за допомогою статистичних методів і надавайте поточні звіти
  • Розставте пріоритети для бізнес-потреб і тісно співпрацюйте з керівництвом та інформаційними потребами
  • Визначте новий процес або сфери можливостей для вдосконалення
  • Аналізуйте, виявляйте та інтерпретуйте тенденції або закономірності в складних наборах даних
  • Придбати дані з первинних або вторинних джерел даних та підтримувати бази / системи даних
  • Фільтруйте та «очищайте» дані, переглядайте комп’ютерні звіти
  • Визначайте показники продуктивності, щоб знаходити та виправляти проблеми з кодом
  • Захист бази даних шляхом розробки системи доступу шляхом визначення рівня доступу користувача

2) Що потрібно, щоб стати аналітиком даних?

Щоб стати аналітиком даних,

  • Глибокі знання пакетів звітності (Business Objects), мови програмування (XML, Javascript або ETL frameworks), баз даних (SQL, SQLite тощо)
  • Сильні навички зі здатністю аналізувати, організовувати, збирати та поширювати великі дані з точністю
  • Технічні знання в області проектування баз даних, моделей даних, аналізу даних і методів сегментації
  • Глибокі знання статистичних пакетів для аналізу великих наборів даних (ПАР, перевершувати, SPSS тощо)


3) Згадайте, які різні етапи аналітичного проекту?

До аналітичного проекту входять різні кроки

  • Визначення проблеми
  • Дослідження даних
  • Підготовка даних
  • моделювання
  • Перевірка даних
  • Впровадження та відстеження

4) Згадайте, що таке очищення даних?

Очищення даних, яке також називають очищенням даних, пов’язане з виявленням і видаленням помилок і невідповідностей із даних для підвищення якості даних.


5) Перелічіть кілька найкращих методів очищення даних?

Деякі з найкращих методів очищення даних включають:

  • Сортування даних за різними атрибутами
  • Для великих наборів даних очищайте їх поетапно та покращуйте дані з кожним кроком, доки не досягнете високої якості даних
  • Для великих наборів даних розбийте їх на невеликі дані. Робота з меншою кількістю даних збільшить швидкість ітерації
  • Щоб виконати загальне завдання очищення, створіть набір службових функцій/інструментів/сценаріїв. Це може включати повторне відображення значень на основі файлу CSV або бази даних SQL або пошук і заміну регулярних виразів, видалення всіх значень, які не відповідають регулярному виразу
  • Якщо у вас є проблема з чистотою даних, упорядкуйте їх за приблизною частотою та вирішуйте найпоширеніші проблеми
  • Проаналізуйте підсумкову статистику для кожного стовпця (стандартне відхилення, середнє значення, кількість пропущених значень,)
  • Слідкуйте за кожною операцією очищення дати, щоб ви могли змінити зміни або видалити операції, якщо потрібно
Запитання для співбесіди аналітика даних
Запитання для співбесіди аналітика даних

6) Поясніть, що таке логістичний регресія?

Логістична регресія — це статистичний метод дослідження набору даних, у якому є одна або кілька незалежних змінних, які визначають результат.


7) Список найкращих інструментів, які можуть бути корисними для аналізу даних?

Нижче наведено найкращі інструменти аналізу даних

  • Tableau
  • RapidMiner
  • OpenRefine
  • KNIME
  • Оператори пошуку Google
  • Розчинник
  • NodeXL
  • io
  • Wolfram Alpha
  • Таблиці Google Fusion

8) Згадайте, яка різниця між інтелектуальним аналізом даних і профілюванням даних?

Різниця між інтелектуальним аналізом даних і профілюванням даних полягає в тому

Профілювання даних: Він спрямований на аналіз екземплярів окремих атрибутів. Він надає інформацію про різні атрибути, такі як діапазон значень, дискретне значення та їх частота, поява нульових значень, тип даних, довжина тощо.

Видобуток даних: Він зосереджений на кластерному аналізі, виявленні незвичайних записів, залежностей, виявленні послідовності, утриманні зв’язків між кількома атрибутами тощо.

Інтелектуальний аналіз даних та профілювання даних


9) Перелічіть деякі типові проблеми, з якими стикається аналітик даних?

Деякі з поширених проблем, з якими стикається аналітик даних

  • Поширені орфографічні помилки
  • Дубльовані записи
  • Відсутні значення
  • Незаконні значення
  • Різні представлення цінностей
  • Виявлення даних, що збігаються

10) Згадайте назву інфраструктури, розробленої Apache для обробки великого набору даних для програми в розподіленому обчислювальному середовищі?

Hadoop а MapReduce — це платформа програмування, розроблена Apache для обробки великого набору даних для програми в розподіленому обчислювальному середовищі.


11) Згадайте, які шаблони відсутні, які зазвичай спостерігаються?

Відсутні моделі, які зазвичай спостерігаються

  • Пропав абсолютно випадково
  • Пропав випадково
  • Відсутність залежить від самого відсутнього значення
  • Відсутність залежить від неспостережуваної вхідної змінної

12) Поясніть, що таке метод імпутації KNN?

У імпутації KNN відсутні значення атрибутів вводяться за допомогою значення атрибутів, які найбільше схожі на атрибут, значення якого відсутні. За допомогою функції відстані визначається подібність двох атрибутів.


3) Згадайте, які методи перевірки даних використовує аналітик даних?

Зазвичай аналітик даних використовує такі методи перевірки даних

  • Скринінг даних
  • Перевірка даних

14) Поясніть, що слід робити з підозрілими або відсутніми даними?

  • Підготуйте звіт про перевірку, який містить інформацію про всі підозрілі дані. Він повинен надавати інформацію, як-от критерії перевірки, що вона не пройшла, а також дату й час виникнення
  • Досвідчений персонал повинен вивчити підозрілі дані, щоб визначити їх прийнятність
  • Недійсні дані слід призначити та замінити кодом підтвердження
  • Щоб працювати над відсутніми даними, використовуйте найкращу стратегію аналізу, як-от метод видалення, методи одноразової імпутації, методи на основі моделі тощо.

15) Згадайте, як вирішити проблеми з кількома джерелами?

Щоб вирішити проблеми з кількома джерелами,

  • Реструктуризація схем для досягнення інтеграції схем
  • Визначте схожі записи та об’єднайте їх в один запис, що містить усі відповідні атрибути без надмірностей

16) Поясніть, що таке викид?

Викид – це термін, який аналітики часто використовують для позначення значення, яке виглядає далеко й відрізняється від загальної моделі у вибірці. Існує два типи викидів

  • Однорідність
  • Багатовимірне

17) Поясніть, що таке ієрархічний алгоритм кластеризації?

Алгоритм ієрархічної кластеризації об’єднує та розділяє існуючі групи, створюючи ієрархічну структуру, яка демонструє порядок, у якому групи поділяються або об’єднуються.


18) Поясніть, що таке K-середній алгоритм?

K mean — відомий метод розбиття. Об'єкти класифікуються як такі, що належать до однієї з K груп, k обраних апріорі.

В алгоритмі K-середніх,

  • Кластери є сферичними: точки даних у кластері зосереджені навколо цього кластера
  • Дисперсія/розкид кластерів подібний: кожна точка даних належить найближчому кластеру

19) Згадайте, які ключові навички необхідні для аналітика даних?

Науковий спеціаліст з даних повинен володіти такими навичками

  • Знання бази даних
  • управління базами даних
  • Змішування даних
  • Запит
  • Маніпулювання даними
  • Прогностична аналітика
  • Основна описова статистика
  • Прогностичне моделювання
  • Розширена аналітика
  • Знання великих даних
  • Аналітика великих даних
  • Аналіз неструктурованих даних
  • навчання за допомогою машини
  • Презентаційна майстерність
  • Візуалізація даних
  • Інсайт-презентація
  • Дизайн звіту

20) Поясніть, що таке спільна фільтрація?

Спільна фільтрація — це простий алгоритм для створення системи рекомендацій на основі даних про поведінку користувачів. Найважливішими компонентами спільної фільтрації є користувачі- елементи- інтереси.

Хорошим прикладом спільного фільтрування є те, що ви бачите заяву на зразок «рекомендовано для вас» на сайтах онлайн-магазинів, яка з’являється на основі вашої історії веб-перегляду.


21) Поясніть, які інструменти використовуються у Big Data?

Інструменти, що використовуються у великих даних, включають

  • Hadoop
  • Вулик
  • Свиня
  • Потік
  • Махаут
  • Скуп

22) Поясніть, що таке KPI, дизайн експериментів і правило 80/20?

КПІ: це означає Key Performance Indicator, це метрика, яка складається з будь-якої комбінації електронних таблиць, звітів або діаграм про бізнес-процеси

Проектування дослідів: це початковий процес, який використовується для розділення ваших даних, вибірки та налаштування даних для статистичного аналізу

Правила 80/20: Це означає, що 80 відсотків вашого доходу надходить від 20 відсотків ваших клієнтів


23) Поясніть, що таке Map Reduce?

Map-reduce — це платформа для обробки великих наборів даних, поділу їх на підмножини, обробки кожної підмножини на іншому сервері, а потім змішування результатів, отриманих на кожному.


24) Поясніть, що таке кластеризація? Які властивості мають алгоритми кластеризації?

Кластеризація – це метод класифікації, який застосовується до даних. Алгоритм кластеризації розбиває набір даних на природні групи або кластери.

Властивості для алгоритму кластеризації є

  • Ієрархічний або плоский
  • Ітеративний
  • Твердий і м'який
  • Диз'юнктивна

25) Які статистичні методи є корисними для аналітика даних?

Статистичні методи, корисні для науковців з даних

  • Байєсівський метод
  • марковський процес
  • Просторові та кластерні процеси
  • Рангова статистика, процентиль, виявлення викидів
  • Методи імпутації тощо.
  • Симплексний алгоритм
  • Математична оптимізація

26) Що таке аналіз часових рядів?

Аналіз часових рядів можна проводити в двох областях: частотній і часовій. В аналізі часових рядів вихід певного процесу можна спрогнозувати шляхом аналізу попередніх даних за допомогою різних методів, таких як експоненційне згладжування, метод логарифмічної лінійної регресії тощо.


27) Поясніть, що таке аналіз корелограми?

Корелограмний аналіз є поширеною формою просторового аналізу в географії. Він складається з серії оцінених коефіцієнтів автокореляції, розрахованих для різних просторових відносин. Його можна використовувати для побудови корелограми для даних на основі відстані, коли необроблені дані виражаються як відстань, а не як значення в окремих точках.


28) Що таке хеш-таблиця?

В обчислювальній техніці хеш-таблиця — це карта ключів до значень. Це а структура даних використовується для реалізації асоціативного масиву. Він використовує хеш-функцію для обчислення індексу в масив слотів, з яких можна отримати бажане значення.


29) Що таке колізії хеш-таблиць? Як цього уникнути?

Зіткнення хеш-таблиці відбувається, коли два різні ключі хешують одне й те саме значення. Два дані не можуть зберігатися в одному слоті масиву.

Щоб уникнути зіткнення хеш-таблиць, існує багато методів, тут ми перерахуємо два

  • Окреме з’єднання:

Він використовує структуру даних для зберігання кількох елементів, які хешуються в одному слоті.

  • Відкрита адресація:

Він шукає інші слоти за допомогою другої функції та зберігає предмет у першому знайденому порожньому слоті


29) Поясніть, що таке імпутація? Перелічіть різні типи методів імпутації?

Під час імпутації ми замінюємо відсутні дані заміненими значеннями. Типи методів імпутації включають:

  • Одиночна імпутація
  • Імпутація за допомогою гарячої колоди: відсутнє значення імпутується з випадково вибраного подібного запису за допомогою перфокарти
  • Імітація холодної колоди: вона працює так само, як і імпутація гарячої колоди, але є більш розширеною та вибирає донорів з інших наборів даних
  • Врахування середнього значення: передбачає заміну відсутнього значення середнім значенням цієї змінної для всіх інших випадків
  • Врахування регресії: передбачає заміну відсутнього значення прогнозованими значеннями змінної на основі інших змінних
  • Стохастична регресія: це те ж саме, що й імпутація регресії, але вона додає середню дисперсію регресії до імпутації регресії.
  • Багаторазова імпутація
  • На відміну від одноразової імпутації, багаторазова імпутація оцінює значення кілька разів

30) Який метод імпутації є більш сприятливим?

Хоча одиничне імпутування широко використовується, воно не відображає невизначеність, спричинену відсутніми випадковими даними. Таким чином, багаторазове імпутування є більш сприятливим, ніж одноразове введення у випадку випадкової відсутності даних.


31) Поясніть, що таке n-грам?

N-грам:

N-грама — це безперервна послідовність із n елементів із заданої послідовності тексту чи мови. Це тип імовірнісної мовної моделі для передбачення наступного елемента в такій послідовності у формі (n-1).


32) Поясніть критерії хорошої моделі даних?

Критерії хорошої моделі даних включають

  • Його можна легко споживати
  • Великі зміни даних у хорошій моделі повинні бути масштабованими
  • Він повинен забезпечувати передбачувану продуктивність
  • Хороша модель може адаптуватися до змін у вимогах

Ці запитання для співбесіди також допоможуть вам у життєдіяльності (усному)

Поділитись

13 Коментарі

  1. Аджай каже:

    Гарна колекція відповідей. Коротко і солодко

  2. Аватара Мітч каже:

    Відповідь на запитання №6 правильна лише частково… логістична регресія має справу з визначенням ймовірності/шансів того, що щось станеться, на основі однієї чи кількох пояснювальних/незалежних змінних. Хоча все інше чудово! дякую

    1. Аватара Sneha каже:

      Так, я думав те саме, це лише половина відповіді.

  3. Аватара Одой Степан каже:

    Дуже дякую за статтю, вона мені дуже допомогла

  4. Аватара Нагорода муншишинга каже:

    Дякую, інформація була корисною

  5. Аватара Вахемба Амуза каже:

    Мене цікавлять відповіді на інтерв’ю, і я хотів би отримати їх своєю поштою. Дякую за всі ваші зусилля, щоб отримати ці відповіді, це не залишило мене без змін

  6. Аватара Тефері Канела каже:

    Дуже корисний і чудовий посібник для бізнесу.

  7. Аватара Юсуф Мохамед каже:

    Дякую за можливість чогось навчитися

залишити коментар

Ваша електронна адреса не буде опублікований. Обов'язкові поля позначені * *