32 parasta dataanalyytikkohaastattelun kysymystä ja vastausta (2025)

Tässä on Data Analyst -haastattelukysymyksiä ja vastauksia fuksilaisille sekä kokeneille data-analyytikkoehdokkaille saadakseen unelmatyönsä.

Ilmainen PDF-lataus: Data Analyst Interview Questions

1) Mainitse mikä on Data-analyytikon vastuu?

Dataanalyytikon vastuualueeseen kuuluu mm.

  • Tarjoa tukea kaikkeen tietojen analysointiin ja koordinoi asiakkaiden ja henkilökunnan kanssa
  • Ratkaise asiakkaiden ja suorituskyvyn liiketoimintaan liittyviä ongelmia tilintarkastus tiedoissa
  • Analysoi tuloksia ja tulkitse tietoja käyttämällä tilastollisia tekniikoita ja toimita jatkuvia raportteja
  • Priorisoi liiketoiminnan tarpeet ja tee tiivistä yhteistyötä johdon ja tietotarpeiden kanssa
  • Tunnista uusi prosessi tai alueet, joissa on parannusmahdollisuuksia
  • Analysoi, tunnista ja tulkitse trendejä tai malleja monimutkaisissa tietosarjoissa
  • Hanki tietoja ensisijaisista tai toissijaisista tietolähteistä ja ylläpidä tietokantoja / tietojärjestelmiä
  • Suodata ja "puhdista" tiedot ja tarkastele tietokoneen raportteja
  • Määritä suorituskykyindikaattorit koodiongelmien paikallistamiseksi ja korjaamiseksi
  • Tietokannan turvaaminen kehittämällä pääsyjärjestelmää määrittämällä käyttäjän käyttöoikeustaso

2) Mitä dataanalyytikkoksi tuleminen vaaditaan?

Tullaksesi dataanalyytikko

  • Vankka tietämys raportointipaketeista (Business Objects), ohjelmointikielestä (XML, Javascript tai ETL-kehykset), tietokannoista (SQL, SQLit jne.)
  • Vahvat taidot ja kyky analysoida, organisoida, kerätä ja levittää suurta dataa tarkasti
  • Tekninen tietämys tietokantojen suunnittelusta, tietomalleista, tiedon louhinnasta ja segmentointitekniikoista
  • Vahva tietämys tilastopaketeista suurten tietojoukkojen analysointiin (SAS, kunnostautua, SPSS jne.)


3) Mainitse mitä eri vaiheita analytiikkaprojektissa on?

Analytiikkaprojektin eri vaiheita ovat mm

  • Ongelman määrittely
  • Tietojen etsintä
  • Tietojen valmistelu
  • mallinnus
  • Tietojen validointi
  • Toteutus ja seuranta

4) Mainitse mitä on tietojen puhdistaminen?

Tietojen puhdistaminen, jota kutsutaan myös tietojen puhdistamiseksi, käsittelee virheiden ja epäjohdonmukaisuuksien tunnistamista ja poistamista tiedosta tietojen laadun parantamiseksi.


5) Listaa joitain parhaita käytäntöjä tietojen puhdistamiseen?

Tietojen puhdistamisen parhaita käytäntöjä ovat mm.

  • Lajittele tiedot eri attribuuttien mukaan
  • Suuria tietojoukkoja varten puhdista se vaiheittain ja paranna tietoja jokaisessa vaiheessa, kunnes saavutat hyvän tiedonlaadun
  • Suuret tietojoukot jakavat ne pieniin tietoihin. Työskentely vähemmällä datalla lisää iterointinopeutta
  • Luo joukko aputoimintoja/työkaluja/skriptejä yleisten puhdistustehtävien hoitamiseksi. Se voi sisältää arvojen uudelleenkartoituksen CSV-tiedoston tai SQL-tietokannan perusteella tai regex-haku ja korvaa -toimintojen tyhjentämisen kaikki arvot, jotka eivät vastaa säännöllistä lauseketta.
  • Jos sinulla on ongelmia tietojen puhtaudessa, järjestä ne arvioidun tiheyden mukaan ja hyökkää yleisimpiin ongelmiin
  • Analysoi kunkin sarakkeen yhteenvetotilastot (keskihajonta, keskiarvo, puuttuvien arvojen määrä)
  • Pidä kirjaa jokaisesta päivämäärän puhdistustoimenpiteestä, jotta voit tarvittaessa muuttaa muutoksia tai poistaa toimintoja
Dataanalyytikkohaastattelukysymykset
Dataanalyytikkohaastattelukysymykset

6) Selitä mikä on logistinen regressio?

Logistinen regressio on tilastollinen menetelmä aineiston tutkimiseksi, jossa on yksi tai useampi riippumaton muuttuja, joka määrittää tuloksen.


7) Luettelo parhaista työkaluista, jotka voivat olla hyödyllisiä data-analyysissä?

Seuraavat ovat parhaat data-analytiikkatyökalut

  • Kuvaelma
  • RapidMiner
  • OpenRefine
  • RUOKA
  • Google-hakuoperaattorit
  • ratkaisija
  • NodeXL
  • io
  • Wolfram Alpha
  • Google Fusion -taulukot

8) Mainitse mitä eroa on tiedon louhinnalla ja dataprofiloinnilla?

Ero tiedon louhinnan ja dataprofiloinnin välillä on se

Tietojen profilointi: Se keskittyy yksittäisten attribuuttien ilmentymäanalyysiin. Se antaa tietoa erilaisista attribuuteista, kuten arvoalue, diskreetti arvo ja niiden taajuus, nolla-arvojen esiintyminen, tietotyyppi, pituus jne.

Tietojen louhinta: Se keskittyy klusterianalyysiin, epätavallisten tietueiden havaitsemiseen, riippuvuuksiin, sekvenssien löytämiseen, useiden attribuuttien välisiin suhteisiin jne.

Tiedonlouhinta ja dataprofilointi


9) Luettele joitakin yleisiä ongelmia, joita data-analyytikko kohtaa?

Jotkut data-analyytikon kohtaamista yleisistä ongelmista ovat

  • Yleinen kirjoitusvirhe
  • Monista merkinnät
  • Puuttuvat arvot
  • Laittomat arvot
  • Vaihtelevat arvoesitykset
  • Päällekkäisten tietojen tunnistaminen

10) Mainitse Apachen kehittämän kehyksen nimi hajautetussa laskentaympäristössä olevan sovelluksen suuren tietojoukon käsittelyyn?

Hadoop ja MapReduce on Apachen kehittämä ohjelmointikehys suuren tietojoukon käsittelyyn hajautetun laskentaympäristön sovellusta varten.


11) Mainitse mitä puuttuvia malleja yleensä havaitaan?

Yleensä havaitut puuttuvat mallit ovat

  • Puuttuu täysin satunnaisesti
  • Puuttuu satunnaisesti
  • Puuttuminen riippuu itse puuttuvasta arvosta
  • Se puuttuu, riippuu havaitsemattomasta syöttömuuttujasta

12) Selitä mikä on KNN-imputointimenetelmä?

KNN-imputoinnissa puuttuvat attribuuttiarvot lasketaan käyttämällä attribuuttiarvoja, jotka ovat eniten samankaltaisia ​​kuin attribuutti, jonka arvot puuttuvat. Etäisyysfunktiota käyttämällä määritetään kahden attribuutin samankaltaisuus.


3) Mainitse mitkä ovat data-analyytikon käyttämät tiedon validointimenetelmät?

Yleensä dataanalyytikon käyttämät menetelmät tietojen validointiin ovat

  • Tietojen seulonta
  • Tietojen tarkistus

14) Selitä, mitä pitäisi tehdä epäillyille tai puuttuville tiedoille?

  • Laadi validointiraportti, joka sisältää tiedot kaikista epäillyistä tiedoista. Sen tulee antaa tietoja, kuten validointikriteerit, että se epäonnistui, sekä tapahtuman päivämäärä ja kellonaika
  • Kokemushenkilöstön tulee tutkia epäilyttävät tiedot määrittääkseen niiden hyväksyttävyyden
  • Virheelliset tiedot tulee määrittää ja korvata vahvistuskoodilla
  • Puuttuvien tietojen käsittelemiseksi käytä parasta analyysistrategiaa, kuten poistomenetelmää, yksittäisiä imputointimenetelmiä, mallipohjaisia ​​menetelmiä jne.

15) Mainitse kuinka käsitellä usean lähteen ongelmia?

Monien lähteiden ongelmien ratkaisemiseksi

  • Kaavojen uudelleenjärjestely skeeman integroinnin toteuttamiseksi
  • Tunnista samanlaiset tietueet ja yhdistä ne yhdeksi tietueeksi, joka sisältää kaikki olennaiset attribuutit ilman redundanssia

16) Selitä mikä on outlier?

Outlier on yleisesti käytetty termi, jota analyytikot viittaavat arvoon, joka näkyy kaukana ja poikkeaa otoksen yleisestä mallista. Outliereja on kahta tyyppiä

  • Yksimuuttujainen
  • monimuuttuja

17) Selitä mikä on hierarkkinen klusterointialgoritmi?

Hierarkkinen klusterointialgoritmi yhdistää ja jakaa olemassa olevat ryhmät luoden hierarkkisen rakenteen, joka näyttää järjestyksen, jossa ryhmät jaetaan tai yhdistetään.


18) Selitä mikä on K-keskiarvoalgoritmi?

K mean on kuuluisa osiointimenetelmä. Objektit luokitellaan kuuluviksi johonkin K-ryhmään, k valitaan a priori.

K-keskiarvoisessa algoritmissa

  • Klusterit ovat pallomaisia: klusterin datapisteet ovat keskittyneet kyseisen klusterin ympärille
  • Klusterien varianssi/hajautus on samanlainen: Jokainen datapiste kuuluu lähimpään klusteriin

19) Mainitse mitkä ovat Data Analystilta vaadittavat keskeiset taidot?

Datatieteilijällä tulee olla seuraavat taidot

  • Tietokannan tuntemus
  • Tietokannanhallinta
  • Tietojen yhdistäminen
  • Kyselyt
  • Tietojen manipulointi
  • Ennakoiva Analytics
  • Peruskuvaustilastot
  • Ennustava mallintaminen
  • Advanced analytics
  • Big Data -tieto
  • Big data -analytiikka
  • Strukturoimaton data-analyysi
  • Koneen oppiminen
  • Esitystaito
  • Tietojen visualisointi
  • Insight-esitys
  • Raportin suunnittelu

20) Selitä, mitä yhteistyösuodatus on?

Yhteiskäyttöinen suodatus on yksinkertainen algoritmi suositusjärjestelmän luomiseksi käyttäjien käyttäytymistietojen perusteella. Yhteistyösuodatuksen tärkeimmät komponentit ovat käyttäjät- kohteet- kiinnostus.

Hyvä esimerkki yhteistoiminnallisesta suodatuksesta on, kun näet verkkokauppasivustoilla lauseen, kuten "suositellaan sinulle", joka ponnahtaa esiin selaushistoriasi perusteella.


21) Selitä, mitä työkaluja Big Datassa käytetään?

Big Datassa käytettyjä työkaluja ovat mm

  • Hadoop
  • Hive
  • Sika
  • Flume
  • Mahout
  • Sqoop

22) Selitä mikä on KPI, kokeiden suunnittelu ja 80/20-sääntö?

CPI: Se tarkoittaa Key Performance Indicator, se on mittari, joka koostuu mistä tahansa laskentataulukoiden, raporttien tai kaavioiden yhdistelmästä liiketoimintaprosesseista.

Kokeiden suunnittelu: Se on ensimmäinen prosessi, jota käytetään tietojen jakamiseen, otokseen ja tietojen määrittämiseen tilastollista analyysiä varten

80/20 säännöt: Se tarkoittaa, että 80 prosenttia tuloistasi tulee 20 prosentilta asiakkaistasi


23) Selitä mikä on Map Reduce?

Map-reduce on kehys, jolla käsitellään suuria tietojoukkoja, jaetaan ne osajoukkoihin, käsitellään jokainen osajoukko eri palvelimella ja yhdistetään sitten jokaisesta saadut tulokset.


24) Selitä, mitä klusterointi on? Mitkä ovat klusterointialgoritmien ominaisuudet?

Klusterointi on dataan sovellettava luokitusmenetelmä. Klusterialgoritmi jakaa tietojoukon luonnollisiin ryhmiin tai klustereihin.

Klusterointialgoritmin ominaisuudet ovat

  • Hierarkkinen tai tasainen
  • iteratiivinen
  • Kovaa ja pehmeää
  • Disjunktiivinen

25) Mitkä ovat tilastollisia menetelmiä, jotka ovat hyödyllisiä data-analyytikoille?

Datatieteilijöille hyödyllisiä tilastomenetelmiä ovat

  • Bayesin menetelmä
  • Markovin prosessi
  • Tila- ja klusteriprosessit
  • Sijoitustilastot, prosenttipiste, poikkeamien havaitseminen
  • Imputointitekniikat jne.
  • Yksinkertainen algoritmi
  • Matemaattinen optimointi

26) Mitä on aikasarjaanalyysi?

Aikasarjaanalyysi voidaan tehdä kahdella alueella, taajuusalueella ja aikatasolla. Aikasarjaanalyysissä tietyn prosessin tuotto voidaan ennustaa analysoimalla aikaisempia tietoja eri menetelmien, kuten eksponentiaalinen tasoitus, log-lineaarinen regressiomenetelmä jne., avulla.


27) Selitä mikä on korrelogrammianalyysi?

Korrelogrammianalyysi on maantieteen yleinen tilaanalyysin muoto. Se koostuu sarjasta arvioituja autokorrelaatiokertoimia, jotka on laskettu eri tilasuhteelle. Sitä voidaan käyttää korrelogrammin muodostamiseen etäisyyspohjaiselle tiedolle, kun raakadata ilmaistaan ​​etäisyydenä eikä yksittäisten pisteiden arvoina.


28) Mikä on hash-taulukko?

Laskennassa hash-taulukko on kartta arvojen avaimista. Se on a tietorakenne käytetään assosiatiivisen taulukon toteuttamiseen. Se käyttää hash-funktiota indeksin laskemiseen ryhmä paikoista, joista haluttu arvo voidaan hakea.


29) Mitä hash-taulukoiden törmäykset ovat? Miten se vältetään?

Hajautustaulukon törmäys tapahtuu, kun kaksi eri avainta tiivistää samaan arvoon. Kahta dataa ei voi tallentaa samaan paikkaan taulukossa.

Hash-taulukon törmäyksen välttämiseksi on olemassa monia tekniikoita, tässä luetellaan kaksi

  • Erillinen ketjutus:

Se käyttää tietorakennetta useiden kohteiden tallentamiseen, jotka hajautuvat samaan paikkaan.

  • Avoin osoitus:

Se etsii muita paikkoja käyttämällä toista toimintoa ja tallentaa kohteen ensimmäiseen löydettyyn tyhjään paikkaan


29) Selitä mitä imputointi on? Luettele erilaisia ​​imputointitekniikoita?

Imputoinnin aikana korvaamme puuttuvat tiedot korvatuilla arvoilla. Imputointitekniikoiden tyypit ovat

  • Yksittäinen impulaatio
  • Hot-deck-imputointi: Puuttuva arvo lasketaan satunnaisesti valitusta samanlaisesta tietueesta reikäkortin avulla
  • Cold deck -imputointi: Se toimii samalla tavalla kuin hot deck -imputointi, mutta se on edistyneempi ja valitsee luovuttajat toisista tietojoukoista
  • Keskimääräinen imputointi: Se sisältää puuttuvan arvon korvaamisen kyseisen muuttujan keskiarvolla kaikissa muissa tapauksissa
  • Regressioimputointi: se sisältää puuttuvan arvon korvaamisen muuttujan ennustetuilla arvoilla muiden muuttujien perusteella
  • Stokastinen regressio: Se on sama kuin regressioimputaatio, mutta se lisää keskimääräisen regression varianssin regressioimputaatioon
  • Useita imputointeja
  • Toisin kuin yksittäinen imputaatio, moninkertainen imputointi arvioi arvot useita kertoja

30) Kumpi imputointimenetelmä on edullisempi?

Vaikka yksittäistä imputaatiota käytetään laajalti, se ei heijasta satunnaisten tietojen puuttumisen aiheuttamaa epävarmuutta. Joten moninkertainen imputointi on edullisempi kuin yksi imputointi, jos tietoja puuttuu satunnaisesti.


31) Selitä mikä on n-grammi?

N-grammi:

N-grammi on peräkkäinen sarja n kohdetta tietystä teksti- tai puhesekvenssistä. Se on eräänlainen todennäköisyyspohjainen kielimalli seuraavan kohteen ennustamiseksi tällaisessa sekvenssissä muodossa (n-1).


32) Selitä, mitkä ovat hyvän tietomallin kriteerit?

Hyvän tietomallin kriteerit sisältävät

  • Se voidaan helposti kuluttaa
  • Hyvässä mallissa suurten datamuutosten tulee olla skaalautuvia
  • Sen pitäisi tarjota ennakoitava suorituskyky
  • Hyvä malli sopeutuu vaatimusten muutoksiin

Nämä haastattelukysymykset auttavat myös vivassasi (suullinen)

Jaa:

13 Kommentit

  1. Hieno kokoelma vastauksia. Lyhyt ja söpö

  2. Vastaus kysymykseen #6 on vain osittain oikea… logistinen regressio käsittelee jonkin tapahtuman todennäköisyyden/todennäköisyyden määrittämistä yhden tai useamman selittävän/riippumattoman muuttujan perusteella. Kaikki muu on kuitenkin hienoa! Kiitos.

    1. Kyllä minä ajattelin samaa, se on vain puolet vastauksesta.

  3. Avatar Odoi Stephen sanoo:

    Kiitos paljon artikkelista, se auttoi minua todella paljon

  4. Avatar debytantti sanoo:

    Hyvä yhteenveto ja erittäin hyödyllinen

  5. Avatar Palkitse munshishinga sanoo:

    Kiitos tiedoista oli apua

  6. Avatar Wachemba Amuza sanoo:

    Olen kiinnostunut haastatteluvastauksista ja haluaisin saada ne sähköpostiini ja kiitos kaikesta vaivannäöstäsi näiden vastausten eteen, se ei ole jättänyt minua ennalleen

  7. Avatar Teferi Kanela sanoo:

    Erittäin hyödyllinen ja erinomainen opas liiketoiminnalle.

  8. Avatar Mark Deg sanoo:

    Lukemisen arvoinen!!! Kiitos

  9. Avatar prinsessa kay sanoo:

    vau tämä on niin hienoa

  10. Avatar Yusuf mohamed sanoo:

    Kiitos mahdollisuudesta oppia jotain

Jätä vastaus

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *