शीर्ष 32 डेटा विश्लेषक साक्षात्कार प्रश्न और उत्तर (2025)
यहां नए लोगों के साथ-साथ अनुभवी डेटा एनालिटिक्स उम्मीदवारों के लिए अपने सपनों की नौकरी पाने के लिए डेटा विश्लेषक साक्षात्कार प्रश्न और उत्तर दिए गए हैं।
निःशुल्क पीडीएफ डाउनलोड: डेटा विश्लेषक साक्षात्कार प्रश्न
1) उल्लेख करें कि डेटा विश्लेषक की जिम्मेदारी क्या है?
डेटा विश्लेषक की ज़िम्मेदारी में शामिल हैं,
- सभी डेटा विश्लेषण में सहायता प्रदान करें और ग्राहकों और कर्मचारियों के साथ समन्वय करें
- ग्राहकों और प्रदर्शन के लिए व्यवसाय संबंधी समस्याओं का समाधान करें आडिट डेटा पर
- परिणामों का विश्लेषण करें और सांख्यिकीय तकनीकों का उपयोग करके डेटा की व्याख्या करें और चल रही रिपोर्ट प्रदान करें
- व्यावसायिक आवश्यकताओं को प्राथमिकता दें और प्रबंधन और सूचना आवश्यकताओं के साथ मिलकर काम करें
- सुधार के अवसरों के लिए नई प्रक्रिया या क्षेत्रों की पहचान करें
- जटिल डेटा सेट में रुझानों या पैटर्न का विश्लेषण, पहचान और व्याख्या करें
- प्राथमिक या द्वितीयक डेटा स्रोतों से डेटा प्राप्त करें और डेटाबेस/डेटा सिस्टम बनाए रखें
- डेटा को फ़िल्टर और "साफ़" करें, और कंप्यूटर रिपोर्ट की समीक्षा करें
- कोड समस्याओं का पता लगाने और उन्हें ठीक करने के लिए प्रदर्शन संकेतक निर्धारित करें
- उपयोगकर्ता के पहुंच स्तर का निर्धारण करके एक्सेस सिस्टम विकसित करके डेटाबेस को सुरक्षित करना
2) डेटा विश्लेषक बनने के लिए क्या आवश्यक है?
डेटा विश्लेषक बनने के लिए,
- रिपोर्टिंग पैकेज (बिजनेस ऑब्जेक्ट), प्रोग्रामिंग भाषा (एक्सएमएल, जावास्क्रिप्ट, या ईटीएल फ्रेमवर्क), डेटाबेस (एसक्यूएल, एसक्यूएलआईटीई, आदि)
- सटीकता के साथ बड़े डेटा का विश्लेषण, व्यवस्थित, संग्रह और प्रसार करने की क्षमता के साथ मजबूत कौशल
- डेटाबेस डिज़ाइन, डेटा मॉडल, डेटा माइनिंग और विभाजन तकनीकों में तकनीकी ज्ञान
- बड़े डेटासेट का विश्लेषण करने के लिए सांख्यिकीय पैकेजों पर मजबूत ज्ञान (एसएएस, एक्सेल, एसपीएसएस, आदि)
3) बताएं कि एक एनालिटिक्स प्रोजेक्ट में विभिन्न चरण क्या हैं?
एक विश्लेषणात्मक परियोजना में विभिन्न चरणों में शामिल हैं
- समस्या की परिभाषा
- डाटा अन्वेषण
- डेटा तैयारी
- मॉडलिंग
- डेटा का सत्यापन
- कार्यान्वयन और ट्रैकिंग
4) बताएं कि डेटा क्लींजिंग क्या है?
डेटा क्लीनिंग को डेटा क्लींजिंग भी कहा जाता है, यह डेटा की गुणवत्ता बढ़ाने के लिए डेटा से त्रुटियों और विसंगतियों को पहचानने और हटाने से संबंधित है।
5) डेटा सफ़ाई के लिए कुछ सर्वोत्तम प्रथाओं की सूची बनाएं?
डेटा सफ़ाई के लिए कुछ सर्वोत्तम प्रक्रियाओं में शामिल हैं,
- डेटा को विभिन्न विशेषताओं के आधार पर क्रमबद्ध करें
- बड़े डेटासेट के लिए इसे चरणबद्ध तरीके से साफ़ करें और प्रत्येक चरण के साथ डेटा में सुधार करें जब तक कि आप अच्छी डेटा गुणवत्ता प्राप्त न कर लें
- बड़े डेटासेट के लिए, उन्हें छोटे डेटा में तोड़ें। कम डेटा के साथ काम करने से आपकी पुनरावृत्ति गति बढ़ जाएगी
- सामान्य सफ़ाई कार्य को संभालने के लिए उपयोगिता फ़ंक्शंस/टूल्स/स्क्रिप्ट का एक सेट बनाएं। इसमें सीएसवी फ़ाइल या एसक्यूएल डेटाबेस के आधार पर मूल्यों को रीमैपिंग करना या रेगेक्स सर्च-एंड-रिप्लेस करना, उन सभी मानों को खाली करना शामिल हो सकता है जो रेगेक्स से मेल नहीं खाते हैं।
- यदि आपके पास डेटा सफ़ाई को लेकर कोई समस्या है, तो उन्हें अनुमानित आवृत्ति के आधार पर व्यवस्थित करें और सबसे आम समस्याओं पर ध्यान दें
- प्रत्येक कॉलम के लिए सारांश आँकड़ों का विश्लेषण करें (मानक विचलन, माध्य, लुप्त मानों की संख्या)
- सफाई कार्य की प्रत्येक तिथि पर नज़र रखें, ताकि आवश्यकता पड़ने पर आप परिवर्तन बदल सकें या कार्य हटा सकें
6) स्पष्ट करें कि क्या है तार्किक प्रतिगमन?
लॉजिस्टिक रिग्रेशन एक डेटासेट की जांच करने के लिए एक सांख्यिकीय पद्धति है जिसमें एक या अधिक स्वतंत्र चर होते हैं जो परिणाम को परिभाषित करते हैं।
7) कुछ सर्वोत्तम उपकरणों की सूची जो डेटा-विश्लेषण के लिए उपयोगी हो सकते हैं?
सर्वोत्तम डेटा विश्लेषण उपकरण निम्नलिखित हैं
- झाँकी
- RapidMiner
- ओपन रिफाइन
- पता है
- Google खोज संचालक
- सॉल्वर
- नोडएक्सएल
- io
- वोल्फ्राम अल्फ़ा का
- Google फ़्यूज़न टेबल
8) बताएं कि डेटा माइनिंग और डेटा प्रोफाइलिंग में क्या अंतर है?
डेटा माइनिंग और डेटा प्रोफाइलिंग के बीच अंतर यह है
डेटा प्रोफाइलिंग: यह व्यक्तिगत विशेषताओं के उदाहरण विश्लेषण पर लक्ष्य रखता है। यह विभिन्न विशेषताओं जैसे मूल्य सीमा, असतत मूल्य और उनकी आवृत्ति, शून्य मानों की घटना, डेटा प्रकार, लंबाई आदि पर जानकारी देता है।
डेटा खनन: यह क्लस्टर विश्लेषण, असामान्य रिकॉर्ड का पता लगाने, निर्भरता, अनुक्रम खोज, कई विशेषताओं के बीच संबंध रखने आदि पर केंद्रित है।
9) डेटा विश्लेषक के सामने आने वाली कुछ सामान्य समस्याओं की सूची बनाएं?
डेटा विश्लेषक के सामने आने वाली कुछ सामान्य समस्याएं हैं
- सामान्य गलत वर्तनी
- डुप्लिकेट प्रविष्टियाँ
- लापता मूल्य
- अवैध मूल्य
- भिन्न-भिन्न मूल्य प्रतिनिधित्व
- ओवरलैपिंग डेटा की पहचान करना
10) वितरित कंप्यूटिंग वातावरण में किसी एप्लिकेशन के लिए बड़े डेटा सेट को संसाधित करने के लिए अपाचे द्वारा विकसित ढांचे का नाम बताएं?
Hadoop और MapReduce एक वितरित कंप्यूटिंग वातावरण में किसी एप्लिकेशन के लिए बड़े डेटा सेट को संसाधित करने के लिए अपाचे द्वारा विकसित प्रोग्रामिंग फ्रेमवर्क है।
11) उल्लेख करें कि वे कौन से लुप्त पैटर्न हैं जो आम तौर पर देखे जाते हैं?
आम तौर पर देखे जाने वाले गायब पैटर्न हैं
- बेतरतीब ढंग से पूरी तरह से गायब
- बेतरतीब ढंग से गायब
- उसका गायब होना गायब मूल्य पर ही निर्भर करता है
- उसका गायब होना न देखे गए इनपुट वेरिएबल पर निर्भर करता है
12) बताएं कि केएनएन प्रतिरूपण विधि क्या है?
KNN प्रतिरूपण में, लुप्त विशेषता मानों को उन विशेषता मानों का उपयोग करके आरोपित किया जाता है जो उस विशेषता के समान होते हैं जिनके मान गुम हैं। दूरी फ़ंक्शन का उपयोग करके, दो विशेषताओं की समानता निर्धारित की जाती है।
3) उल्लेख करें कि डेटा विश्लेषक द्वारा उपयोग की जाने वाली डेटा सत्यापन विधियाँ क्या हैं?
आमतौर पर, डेटा सत्यापन के लिए डेटा विश्लेषक द्वारा उपयोग की जाने वाली विधियाँ हैं
- डेटा स्क्रीनिंग
- डेटा सत्यापन
14) बताएं कि संदिग्ध या गायब डेटा के साथ क्या किया जाना चाहिए?
- एक सत्यापन रिपोर्ट तैयार करें जो सभी संदिग्ध डेटा की जानकारी दे। इसे सत्यापन मानदंड जैसी जानकारी देनी चाहिए कि यह विफल रहा और घटना की तारीख और समय
- अनुभवी कर्मियों को उनकी स्वीकार्यता निर्धारित करने के लिए संदिग्ध डेटा की जांच करनी चाहिए
- अमान्य डेटा को असाइन किया जाना चाहिए और उसे सत्यापन कोड से प्रतिस्थापित किया जाना चाहिए
- लुप्त डेटा पर काम करने के लिए सर्वोत्तम विश्लेषण रणनीति जैसे विलोपन विधि, एकल प्रतिरूपण विधि, मॉडल आधारित विधियाँ आदि का उपयोग करें।
15) बताएं कि बहु-स्रोत समस्याओं से कैसे निपटा जाए?
बहु-स्रोत समस्याओं से निपटने के लिए,
- स्कीमा एकीकरण को पूरा करने के लिए स्कीमा का पुनर्गठन
- समान रिकॉर्ड की पहचान करें और उन्हें बिना किसी अतिरेक के सभी प्रासंगिक विशेषताओं वाले एकल रिकॉर्ड में मर्ज करें
16) स्पष्ट करें कि आउटलेयर क्या है?
आउटलेयर आमतौर पर विश्लेषकों द्वारा इस्तेमाल किया जाने वाला शब्द है, जिसका संदर्भ एक ऐसे मूल्य से है जो बहुत दूर दिखाई देता है और एक नमूने में समग्र पैटर्न से भिन्न होता है। आउटलाइर्स दो प्रकार के होते हैं
- univariate
- बहुभिन्नरूपी
17) बताएं कि पदानुक्रमित क्लस्टरिंग एल्गोरिदम क्या है?
पदानुक्रमित क्लस्टरिंग एल्गोरिदम मौजूदा समूहों को जोड़ता है और विभाजित करता है, एक पदानुक्रमित संरचना बनाता है जो उस क्रम को प्रदर्शित करता है जिसमें समूह विभाजित या विलय होते हैं।
18) बताएं कि K-मीन एल्गोरिथम क्या है?
K माध्य एक प्रसिद्ध विभाजन विधि है। वस्तुओं को K समूहों में से एक के रूप में वर्गीकृत किया गया है, k को प्राथमिकता से चुना गया है।
K-मीन एल्गोरिथम में,
- क्लस्टर गोलाकार होते हैं: क्लस्टर में डेटा बिंदु उस क्लस्टर के आसपास केंद्रित होते हैं
- समूहों का विचरण/प्रसार समान है: प्रत्येक डेटा बिंदु निकटतम क्लस्टर से संबंधित है
19) बताएं कि डेटा विश्लेषक के लिए कौन से प्रमुख कौशल आवश्यक हैं?
एक डेटा साइंटिस्ट के पास निम्नलिखित कौशल होने चाहिए
- डेटाबेस ज्ञान
- डेटाबेस प्रबंधन
- डेटा सम्मिश्रण
- क्वेरी
- डेटा मेनिपुलेशन
- भविष्य कहनेवाला विश्लेषिकी
- बुनियादी वर्णनात्मक आँकड़े
- प्रेडिक्टिव मॉडलिंग
- उन्नत विश्लेषण
- बड़ा डेटा ज्ञान
- बिग डेटा एनालिटिक्स
- असंरचित डेटा विश्लेषण
- मशीन लर्निंग
- प्रस्तुति कौशल
- डेटा विज़ुअलाइज़ेशन
- अंतर्दृष्टि प्रस्तुति
- रिपोर्ट डिज़ाइन
20) बताएं कि सहयोगात्मक फ़िल्टरिंग क्या है?
उपयोगकर्ता व्यवहार डेटा के आधार पर अनुशंसा प्रणाली बनाने के लिए सहयोगात्मक फ़िल्टरिंग एक सरल एल्गोरिदम है। सहयोगी फ़िल्टरिंग के सबसे महत्वपूर्ण घटक हैं उपयोगकर्ता- आइटम- रुचि.
सहयोगात्मक फ़िल्टरिंग का एक अच्छा उदाहरण तब होता है जब आप ऑनलाइन शॉपिंग साइटों पर "आपके लिए अनुशंसित" जैसा कोई कथन देखते हैं जो आपके ब्राउज़िंग इतिहास के आधार पर सामने आता है।
21) बताएं कि बिग डेटा में कौन से उपकरण उपयोग किए जाते हैं?
बिग डेटा में उपयोग किए जाने वाले उपकरण शामिल हैं
- Hadoop
- करंड
- सुअर
- नालिका
- महावत
- स्कूप
22) बताएं कि KPI क्या है, प्रयोगों का डिज़ाइन और 80/20 नियम क्या है?
भाकपा: यह मुख्य प्रदर्शन संकेतक के लिए है, यह एक मीट्रिक है जिसमें व्यावसायिक प्रक्रिया के बारे में स्प्रेडशीट, रिपोर्ट या चार्ट का कोई भी संयोजन शामिल होता है।
प्रयोगों की रूप रेखा: यह प्रारंभिक प्रक्रिया है जिसका उपयोग आपके डेटा को विभाजित करने, नमूना लेने और सांख्यिकीय विश्लेषण के लिए डेटा सेट करने के लिए किया जाता है
80/20 नियम: इसका मतलब है कि आपकी 80 प्रतिशत आय आपके 20 प्रतिशत ग्राहकों से आती है
23) बताएं कि मैप रिड्यूस क्या है?
मैप-रिड्यूस बड़े डेटा सेटों को संसाधित करने, उन्हें सबसेट में विभाजित करने, प्रत्येक सबसेट को एक अलग सर्वर पर संसाधित करने और फिर प्रत्येक पर प्राप्त परिणामों को मिश्रित करने के लिए एक रूपरेखा है।
24) बताएं कि क्लस्टरिंग क्या है? क्लस्टरिंग एल्गोरिदम के गुण क्या हैं?
क्लस्टरिंग एक वर्गीकरण पद्धति है जो डेटा पर लागू होती है। क्लस्टरिंग एल्गोरिदम डेटा सेट को प्राकृतिक समूहों या समूहों में विभाजित करता है।
क्लस्टरिंग एल्गोरिदम के लिए गुण हैं
- श्रेणीबद्ध या सपाट
- चलने का
- कठोर और मुलायम
- संधि तोड़नेवाला
25) कुछ सांख्यिकीय विधियाँ क्या हैं जो डेटा-विश्लेषक के लिए उपयोगी हैं?
डेटा वैज्ञानिकों के लिए उपयोगी सांख्यिकीय विधियाँ हैं
- बायेसियन विधि
- मार्कोव प्रक्रिया
- स्थानिक और क्लस्टर प्रक्रियाएँ
- रैंक आँकड़े, प्रतिशतक, आउटलेर्स का पता लगाना
- प्रतिरूपण तकनीकें, आदि।
- सिम्प्लेक्स एल्गोरिथ्म
- गणितीय अनुकूलन
26) समय श्रृंखला विश्लेषण क्या है?
समय श्रृंखला विश्लेषण दो डोमेन, आवृत्ति डोमेन और समय डोमेन में किया जा सकता है। टाइम सीरीज़ विश्लेषण में विभिन्न तरीकों जैसे एक्सपोनेंशियल स्मूथनिंग, लॉग-लीनियर रिग्रेशन विधि आदि की मदद से पिछले डेटा का विश्लेषण करके किसी विशेष प्रक्रिया के आउटपुट का पूर्वानुमान लगाया जा सकता है।
27) बताएं कि कोरलोग्राम विश्लेषण क्या है?
भूगोल में स्थानिक विश्लेषण का सामान्य रूप कोरलोग्राम विश्लेषण है। इसमें विभिन्न स्थानिक संबंधों के लिए गणना की गई अनुमानित ऑटोसहसंबंध गुणांक की एक श्रृंखला शामिल है। इसका उपयोग दूरी-आधारित डेटा के लिए एक कोरेलोग्राम बनाने के लिए किया जा सकता है, जब कच्चे डेटा को अलग-अलग बिंदुओं पर मानों के बजाय दूरी के रूप में व्यक्त किया जाता है।
28) हैश टेबल क्या है?
कंप्यूटिंग में, हैश तालिका मानों की कुंजियों का एक मानचित्र है। यह है एक डेटा संरचना एक सहयोगी सरणी को लागू करने के लिए उपयोग किया जाता है। यह किसी इंडेक्स की गणना करने के लिए हैश फ़ंक्शन का उपयोग करता है सरणी स्लॉट्स की, जिनसे वांछित मूल्य प्राप्त किया जा सकता है।
29) हैश टेबल टकराव क्या हैं? इससे कैसे बचा जाता है?
हैश टेबल टकराव तब होता है जब दो अलग-अलग कुंजियाँ समान मान पर हैश होती हैं। दो डेटा को ऐरे में एक ही स्लॉट में संग्रहीत नहीं किया जा सकता है।
हैश टेबल टकराव से बचने के लिए कई तकनीकें हैं, यहां हम दो की सूची बना रहे हैं
- अलग चेनिंग:
यह एक ही स्लॉट में हैश वाली कई वस्तुओं को संग्रहीत करने के लिए डेटा संरचना का उपयोग करता है।
- खुला संबोधन:
यह दूसरे फ़ंक्शन का उपयोग करके अन्य स्लॉट की खोज करता है और पाए गए पहले खाली स्लॉट में आइटम को संग्रहीत करता है
29) बताएं कि आरोपण क्या है? विभिन्न प्रकार की आरोपण तकनीकों की सूची बनाएं?
अभिकलन के दौरान हम लुप्त डेटा को प्रतिस्थापित मानों से बदल देते हैं। इसमें शामिल प्रतिरूपण तकनीकों के प्रकार हैं
- एकल प्रतिरूपण
- हॉट-डेक प्रतिरूपण: पंच कार्ड की सहायता से यादृच्छिक रूप से चयनित समान रिकॉर्ड से एक लापता मान लगाया जाता है
- कोल्ड डेक इंप्यूटेशन: यह हॉट डेक इंप्यूटेशन के समान ही काम करता है, लेकिन यह अधिक उन्नत है और अन्य डेटासेट से दाताओं का चयन करता है।
- माध्य प्रतिरूपण: इसमें अन्य सभी मामलों के लिए लुप्त मान को उस चर के माध्य से प्रतिस्थापित करना शामिल है
- प्रतिगमन प्रतिरूपण: इसमें अन्य चर के आधार पर एक चर के अनुमानित मूल्यों के साथ लुप्त मूल्य को प्रतिस्थापित करना शामिल है
- स्टोकेस्टिक प्रतिगमन: यह प्रतिगमन प्रतिरूपण के समान है, लेकिन यह प्रतिगमन प्रतिरूपण में औसत प्रतिगमन विचरण जोड़ता है
- एकाधिक आरोपण
- एकल प्रतिनियुक्ति के विपरीत, एकाधिक प्रतिनियुक्ति कई बार मूल्यों का अनुमान लगाती है
30) कौन सी आरोपण विधि अधिक अनुकूल है?
यद्यपि एकल प्रतिरूपण का व्यापक रूप से उपयोग किया जाता है, यह यादृच्छिक रूप से गायब डेटा द्वारा बनाई गई अनिश्चितता को प्रतिबिंबित नहीं करता है। इसलिए, यादृच्छिक रूप से डेटा गायब होने की स्थिति में एकल आरोपण की तुलना में एकाधिक प्रतिरूपण अधिक अनुकूल है।
31) समझाइये कि एन-ग्राम क्या है?
एन-ग्राम:
एन-ग्राम पाठ या भाषण के दिए गए अनुक्रम से एन वस्तुओं का एक सन्निहित अनुक्रम है। यह (n-1) के रूप में ऐसे अनुक्रम में अगले आइटम की भविष्यवाणी करने के लिए एक प्रकार का संभाव्य भाषा मॉडल है।
32) बताएं कि एक अच्छे डेटा मॉडल के लिए मानदंड क्या हैं?
एक अच्छे डेटा मॉडल के मानदंड में शामिल हैं
- इसका सेवन आसानी से किया जा सकता है
- एक अच्छे मॉडल में बड़े डेटा परिवर्तन स्केलेबल होने चाहिए
- इसे पूर्वानुमानित प्रदर्शन प्रदान करना चाहिए
- एक अच्छा मॉडल आवश्यकताओं में बदलाव के अनुकूल हो सकता है
ये साक्षात्कार प्रश्न आपके मौखिक (मौखिक) में भी मदद करेंगे
उत्तरों का अच्छा संग्रह. छोटा एवं सुन्दर
प्रश्न #6 का उत्तर केवल आंशिक रूप से सही है... लॉजिस्टिक रिग्रेशन एक या अधिक व्याख्यात्मक/स्वतंत्र चर के आधार पर कुछ होने की संभावना/संभावनाओं को निर्धारित करने से संबंधित है। हालाँकि बाकी सब कुछ बढ़िया है! धन्यवाद।
हाँ, मैं भी यही सोच रहा था, यह उत्तर का केवल आधा हिस्सा है।
बहुत अच्छा, मैं सराहना करता हूँ
लेख के लिए बहुत-बहुत धन्यवाद, इससे मुझे वास्तव में बहुत मदद मिली
अच्छा सारांश और बहुत उपयोगी
धन्यवाद जानकारी उपयोगी थी
बहुत अच्छा
मुझे साक्षात्कार के उत्तरों में रुचि है और मैं इसे अपने मेल के माध्यम से प्राप्त करना चाहूंगा और इस उत्तर के लिए आपके सभी प्रयासों के लिए धन्यवाद, इसने मुझे पहले जैसा नहीं छोड़ा है
व्यवसाय के लिए बहुत उपयोगी और उत्कृष्ट मार्गदर्शक।
पढ़ने लायक!!! धन्यवाद
वाह यह तो बहुत बढ़िया है
कुछ सीखने का अवसर देने के लिए आभारी हूँ