30 najpopularniejszych pytań i odpowiedzi podczas wywiadów z analitykami danych (2024)

Oto pytania i odpowiedzi do rozmów kwalifikacyjnych na analityka danych dla nowicjuszy, a także doświadczonych kandydatów na analitykę danych, którzy pomogą im zdobyć wymarzoną pracę.

Bezpłatne pobieranie pliku PDF: Pytania do wywiadu z analitykiem danych

1) Wspomnij, jaka jest odpowiedzialność analityka danych?

Obowiązki analityka danych obejmują:

  • Zapewnij wsparcie dla wszystkich analiz danych i koordynuj działania z klientami i personelem
  • Rozwiązuj problemy biznesowe związane z klientami i wydajnością Audyt na danych
  • Analizuj wyniki i interpretuj dane za pomocą technik statystycznych oraz dostarczaj bieżące raporty
  • Ustal priorytety potrzeb biznesowych i ściśle współpracuj z potrzebami kierownictwa i informacjami
  • Zidentyfikuj nowy proces lub obszary wymagające ulepszeń
  • Analizuj, identyfikuj i interpretuj trendy lub wzorce w złożonych zbiorach danych
  • Pozyskaj dane z pierwotnych lub wtórnych źródeł danych i utrzymuj bazy danych / systemy danych
  • Filtruj i „czyść” dane oraz przeglądaj raporty komputerowe
  • Określ wskaźniki wydajności, aby zlokalizować i naprawić problemy z kodem
  • Zabezpieczenie bazy danych poprzez rozbudowę systemu dostępu poprzez określenie poziomu dostępu użytkownika

2) Co jest potrzebne, aby zostać analitykiem danych?

Aby zostać analitykiem danych,

  • Solidna wiedza na temat pakietów raportowych (Business Objects), języka programowania (frameworki XML, Javascript lub ETL), baz danych (SQL, SQLrzecz itp.)
  • Silne umiejętności umożliwiające dokładne analizowanie, organizowanie, gromadzenie i rozpowszechnianie dużych zbiorów danych
  • Wiedza techniczna z zakresu projektowania baz danych, modeli danych, eksploracji danych i technik segmentacji
  • Dobra znajomość pakietów statystycznych do analizy dużych zbiorów danych (SAS, przewyższać, SPSS itp.)


3) Wspomnij, jakie są różne etapy projektu analitycznego?

Różne etapy projektu analitycznego obejmują

  • Definicja problemu
  • Eksploracja danych
  • Przygotowywanie danych
  • Modelowanie
  • Walidacja danych
  • Wdrożenie i śledzenie

4) Wspomnij, czym jest czyszczenie danych?

Czyszczenie danych, zwane także czyszczeniem danych, polega na identyfikowaniu i usuwaniu błędów i niespójności z danych w celu poprawy jakości danych.


5) Wymień kilka najlepszych praktyk w zakresie czyszczenia danych?

Niektóre z najlepszych praktyk czyszczenia danych obejmują:

  • Sortuj dane według różnych atrybutów
  • W przypadku dużych zbiorów danych czyść je stopniowo i ulepszaj dane z każdym krokiem, aż do uzyskania dobrej jakości danych
  • W przypadku dużych zbiorów danych podziel je na małe dane. Praca z mniejszą ilością danych zwiększy szybkość iteracji
  • Aby obsłużyć typowe zadanie czyszczenia, utwórz zestaw funkcji/narzędzi/skryptów użytkowych. Może to obejmować ponowne mapowanie wartości w oparciu o plik CSV lub bazę danych SQL lub wyszukiwanie i zamienianie wyrażeń regularnych, wygaszanie wszystkich wartości, które nie pasują do wyrażenia regularnego
  • Jeśli masz problem z czystością danych, uporządkuj je według szacunkowej częstotliwości i zajmij się najczęstszymi problemami
  • Analizuj statystyki podsumowujące dla każdej kolumny (odchylenie standardowe, średnia, liczba brakujących wartości)
  • Śledź każdą operację czyszczenia daty, aby w razie potrzeby móc zmieniać zmiany lub usuwać operacje
Pytania do wywiadu z analitykiem danych
Pytania do wywiadu z analitykiem danych

6) Wyjaśnij, co to jest logistyka regresja?

Regresja logistyczna to statystyczna metoda badania zbioru danych, w którym znajduje się jedna lub więcej niezależnych zmiennych definiujących wynik.


7) Lista najlepszych narzędzi, które mogą być przydatne do analizy danych?

Poniżej znajdują się najlepsze narzędzia do analizy danych

  • Żywy obraz
  • RapidMiner
  • Otwórz zawęź
  • KNIME
  • Operatorzy wyszukiwania Google
  • Solver
  • WęzełXL
  • io
  • Wolfram Alfa
  • Tabele Google Fusion

8) Wspomnij, jaka jest różnica między eksploracją danych a profilowaniem danych?

Na tym polega różnica między eksploracją danych a profilowaniem danych

Profilowanie danych: Koncentruje się na analizie instancji poszczególnych atrybutów. Dostarcza informacji o różnych atrybutach, takich jak zakres wartości, wartość dyskretna i ich częstotliwość, występowanie wartości null, typ danych, długość itp.

Eksploracja danych: Koncentruje się na analizie skupień, wykrywaniu nietypowych rekordów, zależnościach, odkrywaniu sekwencji, utrzymywaniu relacji między kilkoma atrybutami itp.

ID-100353945


9) Wymień kilka typowych problemów, z którymi borykają się analitycy danych?

Oto niektóre z typowych problemów, z jakimi borykają się analitycy danych

  • Częsty błąd ortograficzny
  • Zduplikowane wpisy
  • Brakujące wartości
  • Nielegalne wartości
  • Różne reprezentacje wartości
  • Identyfikacja nakładających się danych

10) Podaj nazwę frameworku opracowanego przez Apache do przetwarzania dużych zbiorów danych dla aplikacji w rozproszonym środowisku obliczeniowym?

Hadoop a MapReduce to platforma programistyczna opracowana przez firmę Apache do przetwarzania dużych zbiorów danych dla aplikacji w rozproszonym środowisku obliczeniowym.


11) Wspomnij, jakie brakujące wzorce są powszechnie obserwowane?

Brakujące wzorce, które są powszechnie obserwowane, to

  • Brak zupełnie przypadkowo
  • Brakuje losowo
  • Brak tego zależy od samej brakującej wartości
  • Brak tego zależy od nieobserwowanej zmiennej wejściowej

12) Wyjaśnij, na czym polega metoda imputacji KNN?

W imputacji KNN brakujące wartości atrybutów są przypisywane przy użyciu wartości atrybutów, które są najbardziej podobne do atrybutu, którego wartości brakuje. Za pomocą funkcji odległości określa się podobieństwo dwóch atrybutów.


3) Wspomnij, jakie metody walidacji danych stosuje analityk danych?

Zazwyczaj metody stosowane przez analityka danych do walidacji danych to:

  • Przeglądanie danych
  • Weryfikacja danych

14) Wyjaśnij, co należy zrobić z podejrzanymi lub brakującymi danymi?

  • Przygotuj raport z walidacji, który zawiera informacje o wszystkich podejrzanych danych. Powinien zawierać informacje, takie jak kryteria walidacji, które zakończyły się niepowodzeniem oraz datę i godzinę wystąpienia
  • Doświadczony personel powinien zbadać podejrzane dane, aby określić ich akceptowalność
  • Nieprawidłowe dane należy przypisać i zastąpić kodem weryfikacyjnym
  • Aby pracować nad brakującymi danymi, użyj najlepszej strategii analizy, takiej jak metoda usuwania, metody pojedynczej imputacji, metody oparte na modelu itp.

15) Wspomnij, jak radzić sobie z problemami związanymi z wieloma źródłami?

Aby uporać się z problemami związanymi z wieloma źródłami,

  • Restrukturyzacja schematów w celu osiągnięcia integracji schematów
  • Zidentyfikuj podobne rekordy i połącz je w jeden rekord zawierający wszystkie istotne atrybuty bez zbędnych elementów

16) Wyjaśnij, czym jest wartość odstająca?

Wartość odstająca to termin powszechnie używany przez analityków, odnoszący się do wartości, która wydaje się odległa i odbiega od ogólnego wzorca w próbie. Istnieją dwa typy wartości odstających

  • Jednowymiarowe
  • Wielowymiarowy

17) Wyjaśnij, czym jest algorytm grupowania hierarchicznego?

Algorytm grupowania hierarchicznego łączy i dzieli istniejące grupy, tworząc hierarchiczną strukturę przedstawiającą kolejność, w jakiej grupy są dzielone lub łączone.


18) Wyjaśnij, czym jest algorytm K-średnich?

Średnia K jest znaną metodą podziału. Obiekty klasyfikowane są jako należące do jednej z grup K, k wybranych a priori.

W algorytmie K-średniej

  • Klastry są kuliste: punkty danych w klastrze są wyśrodkowane wokół tego klastra
  • Wariancja/rozrzut skupień jest podobny: każdy punkt danych należy do najbliższego klastra

19) Wspomnij, jakie są kluczowe umiejętności wymagane od Analityka Danych?

Analityk danych musi posiadać następujące umiejętności

  • Znajomość baz danych
  • Zarządzania bazami danych
  • Mieszanie danych
  • Zapytania
  • Manipulowanie danymi
  • Analityka predykcyjna
  • Podstawowe statystyki opisowe
  • Modelowanie predykcyjne
  • Zaawansowana analityka
  • Znajomość dużych zbiorów danych
  • Analizy dużych zbiorów danych
  • Nieustrukturyzowana analiza danych
  • Nauczanie maszynowe
  • Umiejętność prezentacji
  • Wizualizacja danych
  • Prezentacja wglądu
  • Projekt raportu

20) Wyjaśnij, czym jest filtrowanie wspólne?

Filtrowanie oparte na współpracy to prosty algorytm pozwalający stworzyć system rekomendacji na podstawie danych behawioralnych użytkowników. Najważniejszymi elementami filtrowania kolaboracyjnego są: użytkownicy-przedmioty-zainteresowania.

Dobrym przykładem filtrowania opartego na współpracy jest stwierdzenie „polecane dla Ciebie” w witrynach zakupów online, które pojawia się na podstawie Twojej historii przeglądania.


21) Wyjaśnij, jakie narzędzia wykorzystuje się w Big Data?

Narzędzia stosowane w Big Data obejmują

  • Hadoop
  • Ul
  • Świnia
  • Przepływ
  • Kornak
  • Łyżka

22) Wyjaśnij, czym jest KPI, projekt eksperymentów i zasada 80/20?

KPI: oznacza Key Performance Indicator, jest to metryka składająca się z dowolnej kombinacji arkuszy kalkulacyjnych, raportów lub wykresów dotyczących procesów biznesowych

Projekt eksperymentów: Jest to początkowy proces stosowany do dzielenia danych, pobierania próbek i konfigurowania danych do analizy statystycznej

Zasady 80/20: Oznacza to, że 80 procent Twoich dochodów pochodzi od 20 procent Twoich klientów


23) Wyjaśnij, czym jest redukcja mapy?

Map-reduce to framework do przetwarzania dużych zbiorów danych, dzielenia ich na podzbiory, przetwarzania każdego podzbioru na innym serwerze, a następnie łączenia wyników uzyskanych na każdym z nich.


24) Wyjaśnij, czym jest klastrowanie? Jakie są właściwości algorytmów grupowania?

Klastrowanie to metoda klasyfikacji stosowana do danych. Algorytm grupowania dzieli zbiór danych na naturalne grupy lub klastry.

Właściwości algorytmu grupowania to:

  • Hierarchiczne lub płaskie
  • Iteracyjny
  • Twardy i miękki
  • Dysjunktywny

25) Jakie metody statystyczne są przydatne dla analityka danych?

Metody statystyczne przydatne dla analityków danych to:

  • metoda bayesowska
  • Proces Markowa
  • Procesy przestrzenne i klastrowe
  • Statystyka rang, percentyl, wykrywanie wartości odstających
  • Techniki imputacji itp.
  • Algorytm simpleksowy
  • Optymalizacja matematyczna

26) Co to jest analiza szeregów czasowych?

Analizę szeregów czasowych można przeprowadzić w dwóch dziedzinach: dziedzinie częstotliwości i dziedzinie czasu. W analizie szeregów czasowych można przewidzieć wynik konkretnego procesu, analizując poprzednie dane za pomocą różnych metod, takich jak wygładzanie wykładnicze, metoda regresji logarytmiczno-liniowej itp.


27) Wyjaśnij, czym jest analiza korelogramów?

Analiza korelogramów jest powszechną formą analizy przestrzennej w geografii. Składa się z szeregu oszacowanych współczynników autokorelacji obliczonych dla różnych zależności przestrzennych. Można go wykorzystać do skonstruowania korelogramu dla danych opartych na odległości, gdy surowe dane są wyrażane jako odległość, a nie wartości w poszczególnych punktach.


28) Co to jest tablica mieszająca?

W informatyce tablica mieszająca jest mapą kluczy do wartości. To jest struktura danych używany do implementacji tablicy asocjacyjnej. Używa funkcji skrótu do obliczenia indeksu w pliku szyk slotów, z których można pobrać żądaną wartość.


29) Czym są kolizje z tablicą mieszającą? Jak się tego unika?

Do kolizji tablicy mieszającej dochodzi, gdy dwa różne klucze mają tę samą wartość. Nie można przechowywać dwóch danych w tym samym gnieździe tablicy.

Aby uniknąć kolizji z tablicą mieszającą, istnieje wiele technik, tutaj wymienimy dwie

  • Oddzielne łączenie:

Wykorzystuje strukturę danych do przechowywania wielu elementów, które haszują w tym samym gnieździe.

  • Otwórz adresowanie:

Wyszukuje inne miejsca za pomocą drugiej funkcji i przechowuje przedmiot w pierwszym znalezionym pustym slocie


29) Wyjaśnij, czym jest przypisanie? Wymień różne rodzaje technik imputacji?

Podczas imputacji zastępujemy brakujące dane wartościami podstawionymi. Rodzaje technik imputacji obejmują:

  • Pojedyncza imputacja
  • Imputacja typu „hot-deck”: brakująca wartość jest przypisywana losowo wybranemu podobnemu rekordowi za pomocą karty dziurkowanej
  • Imputacja zimnego pokładu: Działa tak samo jak imputacja gorącego pokładu, ale jest bardziej zaawansowana i wybiera dawców z innych zbiorów danych
  • Przypisanie średniej: polega na zastąpieniu brakującej wartości średnią tej zmiennej we wszystkich pozostałych przypadkach
  • Imputacja regresyjna: polega na zastąpieniu brakującej wartości przewidywanymi wartościami zmiennej na podstawie innych zmiennych
  • Regresja stochastyczna: działa tak samo jak imputacja regresji, ale dodaje średnią wariancję regresji do imputacji regresji
  • Wielokrotne przypisanie
  • W przeciwieństwie do pojedynczej imputacji, wielokrotna imputacja powoduje wielokrotne oszacowanie wartości

30) Która metoda imputacji jest korzystniejsza?

Chociaż powszechnie stosowana jest pojedyncza imputacja, nie odzwierciedla ona niepewności wywołanej przypadkowymi brakującymi danymi. Zatem wielokrotna imputacja jest korzystniejsza niż pojedyncza imputacja w przypadku losowych braków danych.


31) Wyjaśnij, co to jest n-gram?

N-gram:

N-gram to ciągła sekwencja n elementów z danej sekwencji tekstu lub mowy. Jest to rodzaj probabilistycznego modelu języka służącego do przewidywania kolejnego elementu w takiej sekwencji w postaci a (n-1).


32) Wyjaśnij, jakie są kryteria dobrego modelu danych?

Kryteria dobrego modelu danych obejmują

  • Można go łatwo spożyć
  • Duże zmiany danych w dobrym modelu powinny być skalowalne
  • Powinien zapewniać przewidywalną wydajność
  • Dobry model potrafi dostosować się do zmian wymagań

Te pytania podczas rozmowy kwalifikacyjnej pomogą również w Twoim życiu (ustach)

Share

Komentarze 13

  1. Niezły zbiór odpowiedzi. Krótkie i słodkie

  2. Odpowiedź na pytanie nr 6 jest tylko częściowo słuszna… regresja logistyczna zajmuje się określeniem prawdopodobieństwa/szansy, że coś się wydarzy w oparciu o jedną lub więcej zmiennych objaśniających/niezależnych. Wszystko inne jest jednak świetne! Dzięki.

    1. Tak, myślałem o tym samym, to tylko połowa odpowiedzi.

  3. Avatar Odoi Stephen mówi:

    Dziękuję bardzo za artykuł, naprawdę bardzo mi pomógł

  4. Avatar Nagradzaj munshishinga mówi:

    Dziękuję, informacje okazały się pomocne

  5. Avatar Wachemba Amuza mówi:

    Jestem zainteresowany odpowiedziami na rozmowę kwalifikacyjną i chciałbym otrzymać je pocztą. Dziękuję za cały wysiłek, jaki włożyłeś w uzyskanie tych odpowiedzi, nie pozostawiło mnie to samo

  6. Avatar Teferi Kanela mówi:

    Bardzo przydatny i doskonały przewodnik dla biznesu.

  7. Avatar Yusuf Mohamed mówi:

    Dziękuję za możliwość nauczenia się czegoś

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *