Top 32 de întrebări și răspunsuri la interviu pentru analist de date (2025)
Iată întrebările și răspunsurile la interviu pentru Data Analyst pentru cei care sunt în curs de dezvoltare, precum și pentru candidații cu experiență în analiza datelor pentru a obține jobul visat.
Descărcare PDF gratuită: Întrebări de interviu pentru analist de date
1) Menționați care este responsabilitatea unui analist de date?
Responsabilitatea unui analist de date include,
- Oferiți suport pentru toate analizele de date și coordonați cu clienții și personalul
- Rezolvați problemele asociate afacerii pentru clienți și performanță de audit pe date
- Analizați rezultatele și interpretați datele folosind tehnici statistice și furnizați rapoarte continue
- Prioritizează nevoile de afaceri și lucrează îndeaproape cu nevoile de management și informații
- Identificați noi procese sau zone pentru oportunități de îmbunătățire
- Analizați, identificați și interpretați tendințele sau modelele în seturi de date complexe
- Achiziționați date din surse de date primare sau secundare și întrețineți baze de date / sisteme de date
- Filtrați și „curățați” datele și examinați rapoartele computerului
- Determinați indicatorii de performanță pentru a localiza și corecta problemele de cod
- Securizarea bazei de date prin dezvoltarea sistemului de acces prin determinarea nivelului de acces al utilizatorului
2) Ce este necesar pentru a deveni analist de date?
Pentru a deveni analist de date,
- Cunoștințe solide despre pachete de raportare (Business Objects), limbaj de programare (cadre XML, Javascript sau ETL), baze de date (SQL, SQLit, etc.)
- Abilități puternice cu capacitatea de a analiza, organiza, colecta și disemina mari date cu acuratețe
- Cunoștințe tehnice în proiectarea bazelor de date, modele de date, mine de date și tehnici de segmentare
- Cunoștințe solide privind pachetele statistice pentru analiza seturi de date mari (SAS, Excel, SPSS etc.)
3) Menționați care sunt diferiții pași într-un proiect de analiză?
Diferiți pași într-un proiect de analiză includ
- Definirea problemei
- Explorarea datelor
- Pregătirea datelor
- Modelare
- Validarea datelor
- Implementare și urmărire
4) Menționați ce este curățarea datelor?
Curățarea datelor, denumită și curățarea datelor, se ocupă cu identificarea și eliminarea erorilor și inconsecvențelor din date pentru a îmbunătăți calitatea datelor.
5) Enumerați câteva dintre cele mai bune practici pentru curățarea datelor?
Unele dintre cele mai bune practici pentru curățarea datelor includ,
- Sortați datele după diferite atribute
- Pentru seturi de date mari, curățați-o pas cu pas și îmbunătățiți datele cu fiecare pas până când obțineți o calitate bună a datelor
- Pentru seturi de date mari, împărțiți-le în date mici. Lucrul cu mai puține date va crește viteza de iterare
- Pentru a gestiona sarcina obișnuită de curățare, creați un set de funcții/instrumente/scripturi utilitare. Poate include remaparea valorilor pe baza unui fișier CSV sau a unei baze de date SQL sau, căutare și înlocuire regex, eliminarea tuturor valorilor care nu se potrivesc cu o expresie regex
- Dacă aveți o problemă cu curățarea datelor, aranjați-le după frecvența estimată și atacați cele mai frecvente probleme
- Analizați rezumatul statisticilor pentru fiecare coloană (abatere standard, medie, număr de valori lipsă)
- Urmăriți fiecare operațiune de curățare a datei, astfel încât să puteți modifica modificările sau să eliminați operațiuni, dacă este necesar
6) Explicați ce este logistic regresie?
Regresia logistică este o metodă statistică pentru examinarea unui set de date în care există una sau mai multe variabile independente care definesc un rezultat.
7) Lista celor mai bune instrumente care pot fi utile pentru analiza datelor?
Următoarele sunt cele mai bune instrumente de analiză a datelor
- Tablou
- RapidMiner
- OpenRefine
- KNIME
- Operatori de căutare Google
- Rezolvator
- NodeXL
- io
- Wolfram Alpha
- Tabelele Google Fusion
8) Menționați care este diferența dintre data mining și data profiling?
Diferența dintre data mining și data profiling este aceea
Profilarea datelor: Acesta vizează analiza instanțelor atributelor individuale. Oferă informații despre diverse atribute, cum ar fi intervalul de valori, valoarea discretă și frecvența acestora, apariția valorilor nule, tipul de date, lungimea etc.
Exploatarea datelor: Se concentrează pe analiza clusterului, detectarea înregistrărilor neobișnuite, dependențe, descoperirea secvenței, menținerea relațiilor între mai multe atribute etc.
9) Enumerați câteva probleme comune cu care se confruntă analistul de date?
Unele dintre problemele comune cu care se confruntă analistul de date sunt
- Greșeli de ortografie frecvente
- Intrări duplicate
- Valori lipsă
- Valori ilegale
- Reprezentări de valori variabile
- Identificarea datelor care se suprapun
10) Menționați numele cadrului dezvoltat de Apache pentru procesarea unui set mare de date pentru o aplicație într-un mediu de calcul distribuit?
Hadoop iar MapReduce este cadrul de programare dezvoltat de Apache pentru procesarea unui set mare de date pentru o aplicație într-un mediu de calcul distribuit.
11) Menționați care sunt modelele lipsă care sunt observate în general?
Tiparele lipsă care se observă în general sunt
- Lipsește complet la întâmplare
- Lipsă la întâmplare
- Lipsa asta depinde de valoarea lipsă în sine
- Lipsește asta depinde de variabila de intrare neobservată
12) Explicați ce este metoda de imputare KNN?
În imputarea KNN, valorile atributelor lipsă sunt imputate utilizând valoarea atributelor care sunt cel mai asemănătoare cu atributul ale cărui valori lipsesc. Folosind o funcție de distanță, se determină asemănarea a două atribute.
3) Menționați care sunt metodele de validare a datelor utilizate de analistul de date?
De obicei, metodele utilizate de analistul de date pentru validarea datelor sunt
- Screeningul datelor
- Verificarea datelor
14) Explicați ce ar trebui făcut cu datele suspectate sau lipsă?
- Pregătiți un raport de validare care oferă informații despre toate datele suspectate. Ar trebui să ofere informații precum criteriile de validare că nu a reușit și data și ora apariției
- Personalul cu experiență ar trebui să examineze datele suspecte pentru a determina acceptabilitatea acestora
- Datele nevalide trebuie atribuite și înlocuite cu un cod de validare
- Pentru a lucra cu datele lipsă, utilizați cea mai bună strategie de analiză, cum ar fi metoda de ștergere, metodele de imputare unică, metode bazate pe model etc.
15) Menționați cum să rezolvați problemele cu mai multe surse?
Pentru a rezolva problemele cu mai multe surse,
- Restructurarea schemelor pentru a realiza o integrare a schemei
- Identificați înregistrări similare și îmbinați-le într-o singură înregistrare care conține toate atributele relevante fără redundanță
16) Explicați ce este un Outlier?
Valoarea aberantă este un termen folosit în mod obișnuit de către analiști, referitor la o valoare care apare departe și diverge de la un model general dintr-un eșantion. Există două tipuri de Outliers
- univariată
- multivariată
17) Explicați ce este algoritmul de grupare ierarhică?
Algoritmul de grupare ierarhică combină și împarte grupurile existente, creând o structură ierarhică care arată ordinea în care grupurile sunt împărțite sau îmbinate.
18) Explicați ce este algoritmul K-mean?
K mean este o metodă faimoasă de partiționare. Obiectele sunt clasificate ca aparținând unuia dintre K grupe, k alese a priori.
În algoritmul K-mean,
- Clusterele sunt sferice: punctele de date dintr-un cluster sunt centrate în jurul acelui cluster
- Varianța/răspândirea clusterelor este similară: fiecare punct de date aparține celui mai apropiat cluster
19) Menționați care sunt abilitățile cheie necesare pentru Data Analyst?
Un cercetător de date trebuie să aibă următoarele abilități
- Cunoașterea bazei de date
- managementul bazelor de date
- Amestecarea datelor
- Interogarea
- Manipulare de date
- Analize predictive
- Statistici descriptive de bază
- Modelarea predictivă
- Analitică avansată
- Cunoașterea Big Data
- Analiza datelor mari
- Analiza nestructurată a datelor
- Invatare mecanica
- Abilitați de prezentare
- Vizualizarea datelor
- Prezentare insight
- Proiectarea raportului
20) Explicați ce este filtrarea colaborativă?
Filtrarea colaborativă este un algoritm simplu pentru a crea un sistem de recomandare bazat pe datele comportamentale ale utilizatorilor. Cele mai importante componente ale filtrării colaborative sunt utilizatori- articole- interes.
Un bun exemplu de filtrare colaborativă este atunci când vedeți o declarație precum „recomandat pentru dvs.” pe site-urile de cumpărături online, care apare pe baza istoricului dvs. de navigare.
21) Explicați care sunt instrumentele utilizate în Big Data?
Instrumentele utilizate în Big Data includ
- Hadoop
- Stup
- Porc
- uluc
- Conducător de elefanţi
- Sqoop
22) Explicați ce este KPI, proiectarea experimentelor și regula 80/20?
KPI: reprezintă indicatorul cheie de performanță, este o valoare care constă din orice combinație de foi de calcul, rapoarte sau diagrame despre procesul de afaceri
Proiectarea experimentelor: Este procesul inițial utilizat pentru a vă împărți datele, a eșantiona și a configura datele pentru analiza statistică
regulile 80/20: Înseamnă că 80% din venitul tău provine de la 20% dintre clienții tăi
23) Explicați ce este Map Reduce?
Map-reduce este un cadru pentru a procesa seturi mari de date, împărțindu-le în subseturi, procesând fiecare subset pe un server diferit și apoi îmbinând rezultatele obținute pe fiecare.
24) Explicați ce este Clustering? Care sunt proprietățile algoritmilor de grupare?
Clusteringul este o metodă de clasificare care se aplică datelor. Algoritmul de grupare împarte un set de date în grupuri naturale sau clustere.
Proprietățile algoritmului de grupare sunt
- Ierarhic sau plat
- repetat
- Tare și moale
- Disjunctiv
25) Care sunt unele dintre metodele statistice care sunt utile pentru analist de date?
Metodele statistice care sunt utile pentru cercetătorii de date sunt
- Metoda bayesiana
- procesul Markov
- Procese spațiale și de cluster
- Statistici de rang, percentile, detectarea valorii aberante
- Tehnici de imputare etc.
- Algoritm simplex
- Optimizare matematică
26) Ce este analiza serii de timp?
Analiza seriilor temporale se poate face în două domenii, domeniul frecvenței și domeniul timpului. În analiza seriilor temporale, rezultatul unui anumit proces poate fi prognozat prin analiza datelor anterioare cu ajutorul diferitelor metode, cum ar fi netezirea exponențială, metoda regresiei log-liniare etc.
27) Explicați ce este analiza corelogramei?
O analiză de corelogramă este forma comună de analiză spațială în geografie. Constă dintr-o serie de coeficienți de autocorelație estimați calculați pentru o relație spațială diferită. Poate fi folosit pentru a construi o corelogramă pentru datele bazate pe distanță, atunci când datele brute sunt exprimate ca distanță, mai degrabă decât valori în puncte individuale.
28) Ce este un tabel hash?
În calcul, un tabel hash este o hartă a cheilor la valori. Este o structură de date folosit pentru implementarea unui tablou asociativ. Utilizează o funcție hash pentru a calcula un index într-un mulțime de sloturi, din care poate fi preluată valoarea dorită.
29) Ce sunt coliziunile tabelelor hash? Cum se evita?
O coliziune de tabel hash are loc atunci când două chei diferite au aceeași valoare. Două date nu pot fi stocate în același slot în matrice.
Pentru a evita coliziunea tabelelor hash, există multe tehnici, aici enumeram două
- Înlănțuire separată:
Folosește structura de date pentru a stoca mai multe articole care se hash în același slot.
- Adresare deschisă:
Acesta caută alte sloturi folosind o a doua funcție și stochează elementul în primul slot gol găsit
29) Explicați ce este imputarea? Enumerați diferitele tipuri de tehnici de imputare?
În timpul imputării înlocuim datele lipsă cu valori substituite. Tipurile de tehnici de imputare implicate sunt
- Imputare unică
- Imputare hot-deck: O valoare lipsă este impută dintr-o înregistrare similară selectată aleatoriu cu ajutorul cardului perforat
- Imputarea cold deck: funcționează la fel ca imputarea hot deck, dar este mai avansată și selectează donatori din alte seturi de date
- Imputarea mediei: implică înlocuirea valorii lipsă cu media acelei variabile pentru toate celelalte cazuri
- Imputarea regresiei: implică înlocuirea valorii lipsă cu valorile prezise ale unei variabile pe baza altor variabile
- Regresia stocastică: este la fel ca imputarea regresiei, dar adaugă varianța medie de regresie la imputarea regresiei
- Imputare multiplă
- Spre deosebire de imputarea unică, imputarea multiplă estimează valorile de mai multe ori
30) Care metodă de imputare este mai favorabilă?
Deși imputarea unică este utilizată pe scară largă, ea nu reflectă incertitudinea creată de datele lipsă la întâmplare. Deci, imputarea multiplă este mai favorabilă decât imputarea unică în cazul lipsei aleatoare a datelor.
31) Explicați ce este n-gramul?
N-gram:
Un n-gramă este o secvență adiacentă de n elemente dintr-o anumită secvență de text sau vorbire. Este un tip de model de limbaj probabilistic pentru prezicerea următorului element dintr-o astfel de secvență sub forma unui (n-1).
32) Explicați care sunt criteriile pentru un model de date bun?
Criteriile pentru un model de date bun includ
- Se poate consuma usor
- Modificările mari de date într-un model bun ar trebui să fie scalabile
- Ar trebui să ofere performanțe previzibile
- Un model bun se poate adapta la schimbările de cerințe
Aceste întrebări de interviu vă vor ajuta, de asemenea, în viva (orale)
Frumoasă colecție de răspunsuri. Scurt și dulce
Răspunsul la întrebarea #6 este doar parțial corect... regresia logistică se ocupă cu determinarea probabilității/ șanselor ca ceva să se întâmple pe baza uneia sau mai multor variabile explicative/independente. Totuși, totul este grozav! Mulţumesc.
Da, mă gândeam la fel, este doar jumătate din răspuns.
atât de frumos, apreciez
Mulțumesc mult pentru articol, chiar m-a ajutat foarte mult
Rezumat bun și foarte util
Multumesc informatia a fost de ajutor
Foarte bine
Sunt interesat de răspunsurile la interviu și aș dori să le primesc prin e-mail și vă mulțumesc pentru tot efortul depus pentru că aceste răspunsuri nu m-au lăsat la fel
Foarte util și un ghid excelent pentru afaceri.
Merita citit!!! Multumesc
wow asta e atât de grozav
Mulțumesc pentru oportunitatea de a învăța ceva