Nangungunang 32 Mga Tanong at Sagot sa Panayam ng Data Analyst (2025)
Narito ang mga tanong at sagot sa panayam ng Data Analyst para sa mga fresher pati na rin ang mga nakaranasang kandidato ng data analytics upang makuha ang kanilang pinapangarap na trabaho.
Libreng PDF Download: Mga Tanong sa Panayam ng Data Analyst
1) Banggitin kung ano ang responsibilidad ng isang Data analyst?
Kasama sa responsibilidad ng isang Data analyst ang,
- Magbigay ng suporta sa lahat ng pagsusuri ng data at makipag-ugnayan sa mga customer at staff
- Lutasin ang mga isyu na nauugnay sa negosyo para sa mga kliyente at gumaganap pagtutuos ng kuwenta sa data
- Suriin ang mga resulta at bigyang-kahulugan ang data gamit ang mga diskarte sa istatistika at magbigay ng mga patuloy na ulat
- Unahin ang mga pangangailangan sa negosyo at makipagtulungan nang malapit sa mga pangangailangan sa pamamahala at impormasyon
- Tukuyin ang mga bagong proseso o mga lugar para sa mga pagkakataon sa pagpapabuti
- Suriin, tukuyin at bigyang-kahulugan ang mga uso o pattern sa mga kumplikadong set ng data
- Kumuha ng data mula sa pangunahin o pangalawang mga mapagkukunan ng data at panatilihin ang mga database / system ng data
- I-filter at "linisin" ang data, at suriin ang mga ulat sa computer
- Tukuyin ang mga tagapagpahiwatig ng pagganap upang mahanap at itama ang mga problema sa code
- Pag-secure ng database sa pamamagitan ng pagbuo ng access system sa pamamagitan ng pagtukoy sa antas ng access ng user
2) Ano ang kinakailangan upang maging isang data analyst?
Upang maging isang data analyst,
- Matatag na kaalaman sa pag-uulat ng mga pakete (Business Objects), programming language (XML, Javascript, o ETL frameworks), database (SQL, SQLito, atbp.)
- Malakas na kasanayan na may kakayahang mag-analisa, mag-ayos, mangolekta at magpakalat ng malaking data nang may katumpakan
- Kaalaman sa teknikal sa disenyo ng database, mga modelo ng data, pagmimina ng data at mga diskarte sa pagse-segment
- Malakas na kaalaman sa mga statistical package para sa pagsusuri ng malalaking dataset (SAS, Manguna, SPSS, atbp.)
3) Banggitin kung ano ang iba't ibang hakbang sa isang analytics project?
Kasama sa iba't ibang hakbang sa isang analytics project
- Depinisyon ng problema
- Pagsaliksik ng data
- Paghahanda ng datos
- Modelling
- Pagpapatunay ng data
- Pagpapatupad at pagsubaybay
4) Banggitin kung ano ang paglilinis ng data?
Ang paglilinis ng data ay tinutukoy din bilang paglilinis ng data, na tumutukoy sa pagtukoy at pag-aalis ng mga error at hindi pagkakapare-pareho mula sa data upang mapahusay ang kalidad ng data.
5) Ilista ang ilan sa mga pinakamahusay na kagawian para sa paglilinis ng data?
Kabilang sa ilan sa mga pinakamahusay na kagawian para sa paglilinis ng data,
- Pagbukud-bukurin ang data ayon sa iba't ibang katangian
- Para sa malalaking dataset, linisin ito nang sunud-sunod at pagbutihin ang data sa bawat hakbang hanggang sa makamit mo ang magandang kalidad ng data
- Para sa malalaking dataset, hatiin ang mga ito sa maliit na data. Ang pagtatrabaho sa mas kaunting data ay magpapataas ng iyong bilis ng pag-ulit
- Upang mahawakan ang karaniwang gawain sa paglilinis, lumikha ng isang hanay ng mga function/tool/script ng utility. Maaaring kabilang dito ang, muling pagmamapa ng mga value batay sa isang CSV file o SQL database o, regex search-and-replace, pag-blangko sa lahat ng value na hindi tumutugma sa isang regex
- Kung mayroon kang isyu sa kalinisan ng data, ayusin ang mga ito ayon sa tinantyang dalas at atakehin ang mga pinakakaraniwang problema
- Suriin ang mga istatistika ng buod para sa bawat column ( standard deviation, mean, bilang ng mga nawawalang value,)
- Subaybayan ang bawat operasyon sa paglilinis ng petsa, para mabago mo ang mga pagbabago o alisin ang mga operasyon kung kinakailangan
6) Ipaliwanag kung ano ang logistic regression?
Ang logistic regression ay isang istatistikal na paraan para sa pagsusuri ng isang dataset kung saan mayroong isa o higit pang mga independiyenteng variable na tumutukoy sa isang kinalabasan.
7) Listahan ng ilang pinakamahusay na tool na maaaring maging kapaki-pakinabang para sa pagsusuri ng data?
Ang mga sumusunod ay ang pinakamahusay na mga tool sa analytics ng data
- Tableau
- RapidMiner
- OpenRefine
- KNIME
- Mga Operator sa Paghahanap ng Google
- solver
- NodeXL
- io
- Ang Wolfram Alpha
- Mga talahanayan ng Google Fusion
8) Banggitin kung ano ang pagkakaiba sa pagitan ng data mining at data profiling?
Ang pagkakaiba sa pagitan ng data mining at data profiling ay iyon
Pag-profile ng data: Ito ay nagta-target sa instance analysis ng mga indibidwal na katangian. Nagbibigay ito ng impormasyon sa iba't ibang mga katangian tulad ng hanay ng halaga, discrete na halaga at dalas ng mga ito, paglitaw ng mga null na halaga, uri ng data, haba, atbp.
Pagmimina ng data: Nakatuon ito sa pagsusuri ng kumpol, pagtuklas ng mga hindi pangkaraniwang tala, dependency, pagtuklas ng pagkakasunud-sunod, paghawak ng kaugnayan sa pagitan ng ilang mga katangian, atbp.
9) Ilista ang ilang karaniwang problemang kinakaharap ng data analyst?
Ang ilan sa mga karaniwang problemang kinakaharap ng data analyst ay
- Karaniwang maling spelling
- Dobleng mga entry
- Nawawalang halaga
- Mga iligal na halaga
- Pagkakaiba-iba ng mga representasyon ng halaga
- Pagkilala sa magkakapatong na data
10) Banggitin ang pangalan ng framework na binuo ng Apache para sa pagproseso ng malaking set ng data para sa isang application sa isang distributed computing environment?
Hadoop at ang MapReduce ay ang programming framework na binuo ng Apache para sa pagproseso ng malaking set ng data para sa isang application sa isang distributed computing environment.
11) Banggitin kung ano ang mga nawawalang pattern na karaniwang sinusunod?
Ang mga nawawalang pattern na karaniwang sinusunod ay
- Nawawala nang random
- Nawawala nang random
- Ang nawawala ay depende sa nawawalang halaga mismo
- Nawawala iyon ay depende sa hindi naobserbahang variable ng input
12) Ipaliwanag kung ano ang KNN imputation method?
Sa KNN imputation, ang mga nawawalang value ng attribute ay ibinibilang sa pamamagitan ng paggamit ng attribute value na pinaka-kapareho sa attribute na ang value ay nawawala. Sa pamamagitan ng paggamit ng function ng distansya, natutukoy ang pagkakapareho ng dalawang katangian.
3) Banggitin kung ano ang mga pamamaraan ng pagpapatunay ng data na ginagamit ng data analyst?
Karaniwan, ang mga paraan na ginagamit ng data analyst para sa data validation ay
- Pag-screen ng data
- Pag-verify ng data
14) Ipaliwanag kung ano ang dapat gawin sa pinaghihinalaang o nawawalang data?
- Maghanda ng ulat sa pagpapatunay na nagbibigay ng impormasyon ng lahat ng pinaghihinalaang data. Dapat itong magbigay ng impormasyon tulad ng pamantayan sa pagpapatunay na nabigo ito at ang petsa at oras ng paglitaw
- Dapat suriin ng mga tauhan ng karanasan ang kahina-hinalang data upang matukoy ang kanilang katanggap-tanggap
- Dapat na italaga ang di-wastong data at palitan ng validation code
- Upang magtrabaho sa nawawalang data, gamitin ang pinakamahusay na diskarte sa pagsusuri tulad ng paraan ng pagtanggal, mga pamamaraan ng solong imputation, mga pamamaraan batay sa modelo, atbp.
15) Banggitin kung paano haharapin ang mga multi-source na problema?
Upang harapin ang mga problema sa maraming mapagkukunan,
- Muling pagbubuo ng mga schema upang magawa ang isang integration ng schema
- Tukuyin ang mga katulad na tala at pagsamahin ang mga ito sa isang talaan na naglalaman ng lahat ng nauugnay na katangian nang walang kalabisan
16) Ipaliwanag kung ano ang Outlier?
Ang outlier ay isang karaniwang ginagamit na termino ng mga analyst na tinutukoy para sa isang value na lumilitaw sa malayo at nag-iiba mula sa isang pangkalahatang pattern sa isang sample. Mayroong dalawang uri ng Outlier
- Univariate
- Multivariate
17) Ipaliwanag kung ano ang Hierarchical Clustering Algorithm?
Pinagsasama at hinahati ng hierarchical clustering algorithm ang mga umiiral nang grupo, na lumilikha ng hierarchical na istraktura na nagpapakita ng pagkakasunud-sunod kung saan hinati o pinagsama ang mga grupo.
18) Ipaliwanag kung ano ang K-mean Algorithm?
Ang K mean ay isang sikat na paraan ng paghahati. Ang mga bagay ay inuri bilang kabilang sa isa sa mga pangkat ng K, k ay pinili ng isang priori.
Sa K-mean algorithm,
- Ang mga cluster ay spherical: ang mga data point sa isang cluster ay nakasentro sa paligid ng cluster na iyon
- Ang pagkakaiba/pagkalat ng mga cluster ay magkatulad: Ang bawat data point ay kabilang sa pinakamalapit na cluster
19) Banggitin kung ano ang mga pangunahing kasanayan na kinakailangan para sa Data Analyst?
Ang isang data scientist ay dapat magkaroon ng mga sumusunod na kasanayan
- Kaalaman sa database
- Pamamahala ng database
- Paghahalo ng data
- Nagtatanong
- Maanipulasyon ng datos
- Predictive Analytics
- Pangunahing mga istatistika ng paglalarawan
- Hulaang pagmomodelo
- Advanced na analytics
- Big Data Knowledge
- Malaking analytics ng data
- Unstructured data analysis
- Pag-aaral ng machine
- Kasanayan sa pagtatanghal
- Visualization ng data
- Presentasyon ng pananaw
- Disenyo ng ulat
20) Ipaliwanag kung ano ang collaborative filtering?
Ang collaborative na pag-filter ay isang simpleng algorithm para gumawa ng system ng rekomendasyon batay sa data ng asal ng user. Ang pinakamahalagang bahagi ng collaborative na pagsala ay mga gumagamit- aytem- interes.
Ang isang magandang halimbawa ng collaborative na pag-filter ay kapag nakakita ka ng pahayag tulad ng "inirerekomenda para sa iyo" sa mga online shopping site na lumalabas batay sa iyong kasaysayan ng pagba-browse.
21) Ipaliwanag kung ano ang mga tool na ginagamit sa Big Data?
Kasama sa mga tool na ginagamit sa Big Data
- Hadoop
- Pugad
- Baboy
- Daloy
- Mahout
- Sqoop
22) Ipaliwanag kung ano ang KPI, disenyo ng mga eksperimento at 80/20 na panuntunan?
KPI: Ito ay kumakatawan sa Key Performance Indicator, ito ay isang sukatan na binubuo ng anumang kumbinasyon ng mga spreadsheet, ulat o chart tungkol sa proseso ng negosyo
Disenyo ng mga eksperimento: Ito ang paunang proseso na ginamit upang hatiin ang iyong data, sample at set up ng isang data para sa statistical analysis
80/20 panuntunan: Nangangahulugan ito na 80 porsiyento ng iyong kita ay mula sa 20 porsiyento ng iyong mga kliyente
23) Ipaliwanag kung ano ang Map Reduce?
Ang Map-reduce ay isang balangkas upang iproseso ang malalaking set ng data, paghahati-hati sa mga ito sa mga subset, pagpoproseso ng bawat subset sa ibang server at pagkatapos ay ihalo ang mga resultang nakuha sa bawat isa.
24) Ipaliwanag kung ano ang Clustering? Ano ang mga katangian para sa clustering algorithm?
Ang clustering ay isang paraan ng pag-uuri na inilalapat sa data. Hinahati ng algorithm ng clustering ang isang set ng data sa mga natural na grupo o cluster.
Ang mga katangian para sa clustering algorithm ay
- Hierarchical o patag
- Matalino
- Matigas at malambot
- Disjunction
25) Ano ang ilan sa mga istatistikal na pamamaraan na kapaki-pakinabang para sa data-analyst?
Ang mga pamamaraan ng istatistika na kapaki-pakinabang para sa data scientist ay
- Pamamaraan ng Bayesian
- proseso ni Markov
- Mga proseso ng spatial at cluster
- Mga istatistika ng ranggo, percentile, pagtukoy ng mga outlier
- Imputation techniques, atbp.
- Simplex algorithm
- Pag-optimize ng matematika
26) Ano ang pagsusuri ng serye ng oras?
Maaaring gawin ang pagsusuri ng serye ng oras sa dalawang domain, frequency domain at time domain. Sa Time series analysis ang output ng isang partikular na proseso ay maaaring hulaan sa pamamagitan ng pagsusuri sa nakaraang data sa tulong ng iba't ibang pamamaraan tulad ng exponential smoothening, log-linear regression method, atbp.
27) Ipaliwanag kung ano ang pagsusuri ng correlogram?
Ang pagsusuri ng correlogram ay ang karaniwang anyo ng spatial analysis sa heograpiya. Binubuo ito ng isang serye ng mga tinantyang autocorrelation coefficient na kinakalkula para sa ibang spatial na relasyon. Maaari itong magamit upang bumuo ng isang correlogram para sa data na nakabatay sa distansya, kapag ang raw data ay ipinahayag bilang distansya sa halip na mga halaga sa mga indibidwal na punto.
28) Ano ang hash table?
Sa computing, ang hash table ay isang mapa ng mga susi sa mga value. Ito ay isang istruktura ng data ginagamit upang ipatupad ang isang associative array. Gumagamit ito ng hash function upang makalkula ang isang index sa isang ayos ng mga slot, kung saan maaaring makuha ang nais na halaga.
29) Ano ang mga banggaan ng hash table? Paano ito maiiwasan?
Nangyayari ang banggaan ng hash table kapag nagha-hash ang dalawang magkaibang key sa parehong halaga. Hindi maiimbak ang dalawang data sa parehong slot sa array.
Upang maiwasan ang banggaan ng hash table mayroong maraming mga diskarte, dito namin ilista ang dalawa
- Hiwalay na Pagkakadena:
Ginagamit nito ang istraktura ng data upang mag-imbak ng maraming item na hash sa parehong slot.
- Buksan ang addressing:
Naghahanap ito ng iba pang mga slot gamit ang pangalawang function at nag-iimbak ng item sa unang walang laman na slot na natagpuan
29) Ipaliwanag kung ano ang imputation? Maglista ng iba't ibang uri ng imputation technique?
Sa panahon ng imputation pinapalitan namin ang nawawalang data ng mga pinalit na halaga. Ang mga uri ng imputation technique ay kinabibilangan ay
- Single Imputation
- Hot-deck imputation: Ang isang nawawalang value ay ibinibilang mula sa random na napiling katulad na record sa pamamagitan ng tulong ng punch card
- Cold deck imputation: Gumagana ito katulad ng hot deck imputation, ngunit mas advanced ito at pumipili ng mga donor mula sa ibang mga dataset
- Mean imputation: Kabilang dito ang pagpapalit ng nawawalang halaga ng mean ng variable na iyon para sa lahat ng iba pang kaso
- Regression imputation: Ito ay nagsasangkot ng pagpapalit ng nawawalang halaga ng mga hinulaang halaga ng isang variable batay sa iba pang mga variable
- Stochastic regression: Ito ay kapareho ng regression imputation, ngunit ito ay nagdaragdag ng average na regression variance sa regression imputation
- Maramihang Imputation
- Hindi tulad ng single imputation, maraming beses na tinatantya ng multiple imputation ang mga value
30) Aling paraan ng imputation ang mas pabor?
Bagama't malawakang ginagamit ang solong imputation, hindi nito sinasalamin ang kawalan ng katiyakan na nilikha ng nawawalang data nang random. Kaya, ang maramihang imputation ay mas kanais-nais kaysa solong imputation kung sakaling ang data ay nawawala nang random.
31) Ipaliwanag kung ano ang n-gram?
N-gram:
Ang n-gram ay isang magkadikit na pagkakasunod-sunod ng n aytem mula sa isang naibigay na pagkakasunod-sunod ng teksto o pananalita. Ito ay isang uri ng probabilistikong modelo ng wika para sa paghula sa susunod na aytem sa ganoong pagkakasunod-sunod sa anyo ng isang (n-1).
32) Ipaliwanag kung ano ang pamantayan para sa isang mahusay na modelo ng data?
Kasama sa mga pamantayan para sa isang mahusay na modelo ng data
- Madali itong maubos
- Dapat na scalable ang malalaking pagbabago sa data sa isang magandang modelo
- Dapat itong magbigay ng predictable na pagganap
- Ang isang mahusay na modelo ay maaaring umangkop sa mga pagbabago sa mga kinakailangan
Ang mga tanong sa panayam na ito ay makakatulong din sa iyong viva(orals)
Magandang koleksyon ng mga sagot. Maikli at matamis
Ang sagot sa tanong #6 ay bahagyang tama lamang… ang logistic regression ay tumutukoy sa pagtukoy sa probabilidad/odds ng isang bagay na nangyayari batay sa isa o higit pang mga paliwanag/independiyenteng variable. Ang lahat ng iba pa ay mahusay! Salamat.
Oo pareho ang iniisip ko, kalahati lang ng sagot.
sobrang ganda, naappreciate ko
Maraming salamat sa artikulo na ito ay talagang nakatulong sa akin
Magandang Buod at napakalaking tulong
Salamat nakatulong ang impormasyon
Napakabuti
Interesado ako sa mga sagot sa panayam at gusto kong matanggap ito sa pamamagitan ng aking mail at salamat sa lahat ng iyong pagsusumikap para sa mga sagot na ito ay hindi ito nag-iwan sa akin ng pareho
Napaka-kapaki-pakinabang at isang mahusay na gabay para sa negosyo.
Sulit na basahin!!! Salamat
wow ang galing nito
Salamat sa pagkakataong matuto ng isang bagay