शीर्ष 30 डेटा विश्लेषक साक्षात्कार प्रश्न और उत्तर (2024)

यहां नए लोगों के साथ-साथ अनुभवी डेटा एनालिटिक्स उम्मीदवारों के लिए अपने सपनों की नौकरी पाने के लिए डेटा विश्लेषक साक्षात्कार प्रश्न और उत्तर दिए गए हैं।

निःशुल्क पीडीएफ डाउनलोड: डेटा विश्लेषक साक्षात्कार प्रश्न

1) उल्लेख करें कि डेटा विश्लेषक की जिम्मेदारी क्या है?

डेटा विश्लेषक की ज़िम्मेदारी में शामिल हैं,

  • सभी डेटा विश्लेषण में सहायता प्रदान करें और ग्राहकों और कर्मचारियों के साथ समन्वय करें
  • ग्राहकों और प्रदर्शन के लिए व्यवसाय संबंधी समस्याओं का समाधान करें आडिट डेटा पर
  • परिणामों का विश्लेषण करें और सांख्यिकीय तकनीकों का उपयोग करके डेटा की व्याख्या करें और चल रही रिपोर्ट प्रदान करें
  • व्यावसायिक आवश्यकताओं को प्राथमिकता दें और प्रबंधन और सूचना आवश्यकताओं के साथ मिलकर काम करें
  • सुधार के अवसरों के लिए नई प्रक्रिया या क्षेत्रों की पहचान करें
  • जटिल डेटा सेट में रुझानों या पैटर्न का विश्लेषण, पहचान और व्याख्या करें
  • प्राथमिक या द्वितीयक डेटा स्रोतों से डेटा प्राप्त करें और डेटाबेस/डेटा सिस्टम बनाए रखें
  • डेटा को फ़िल्टर और "साफ़" करें, और कंप्यूटर रिपोर्ट की समीक्षा करें
  • कोड समस्याओं का पता लगाने और उन्हें ठीक करने के लिए प्रदर्शन संकेतक निर्धारित करें
  • उपयोगकर्ता के पहुंच स्तर का निर्धारण करके एक्सेस सिस्टम विकसित करके डेटाबेस को सुरक्षित करना

2) डेटा विश्लेषक बनने के लिए क्या आवश्यक है?

डेटा विश्लेषक बनने के लिए,

  • रिपोर्टिंग पैकेज (बिजनेस ऑब्जेक्ट), प्रोग्रामिंग भाषा (एक्सएमएल, जावास्क्रिप्ट, या ईटीएल फ्रेमवर्क), डेटाबेस (एसक्यूएल, एसक्यूएलआईटीई, आदि)
  • सटीकता के साथ बड़े डेटा का विश्लेषण, व्यवस्थित, संग्रह और प्रसार करने की क्षमता के साथ मजबूत कौशल
  • डेटाबेस डिज़ाइन, डेटा मॉडल, डेटा माइनिंग और विभाजन तकनीकों में तकनीकी ज्ञान
  • बड़े डेटासेट का विश्लेषण करने के लिए सांख्यिकीय पैकेजों पर मजबूत ज्ञान (एसएएस, एक्सेल, एसपीएसएस, आदि)


3) बताएं कि एक एनालिटिक्स प्रोजेक्ट में विभिन्न चरण क्या हैं?

एक विश्लेषणात्मक परियोजना में विभिन्न चरणों में शामिल हैं

  • समस्या की परिभाषा
  • डाटा अन्वेषण
  • डेटा तैयारी
  • मॉडलिंग
  • डेटा का सत्यापन
  • कार्यान्वयन और ट्रैकिंग

4) बताएं कि डेटा क्लींजिंग क्या है?

डेटा क्लीनिंग को डेटा क्लींजिंग भी कहा जाता है, यह डेटा की गुणवत्ता बढ़ाने के लिए डेटा से त्रुटियों और विसंगतियों को पहचानने और हटाने से संबंधित है।


5) डेटा सफ़ाई के लिए कुछ सर्वोत्तम प्रथाओं की सूची बनाएं?

डेटा सफ़ाई के लिए कुछ सर्वोत्तम प्रक्रियाओं में शामिल हैं,

  • डेटा को विभिन्न विशेषताओं के आधार पर क्रमबद्ध करें
  • बड़े डेटासेट के लिए इसे चरणबद्ध तरीके से साफ़ करें और प्रत्येक चरण के साथ डेटा में सुधार करें जब तक कि आप अच्छी डेटा गुणवत्ता प्राप्त न कर लें
  • बड़े डेटासेट के लिए, उन्हें छोटे डेटा में तोड़ें। कम डेटा के साथ काम करने से आपकी पुनरावृत्ति गति बढ़ जाएगी
  • सामान्य सफ़ाई कार्य को संभालने के लिए उपयोगिता फ़ंक्शंस/टूल्स/स्क्रिप्ट का एक सेट बनाएं। इसमें सीएसवी फ़ाइल या एसक्यूएल डेटाबेस के आधार पर मूल्यों को रीमैपिंग करना या रेगेक्स सर्च-एंड-रिप्लेस करना, उन सभी मानों को खाली करना शामिल हो सकता है जो रेगेक्स से मेल नहीं खाते हैं।
  • यदि आपके पास डेटा सफ़ाई को लेकर कोई समस्या है, तो उन्हें अनुमानित आवृत्ति के आधार पर व्यवस्थित करें और सबसे आम समस्याओं पर ध्यान दें
  • प्रत्येक कॉलम के लिए सारांश आँकड़ों का विश्लेषण करें (मानक विचलन, माध्य, लुप्त मानों की संख्या)
  • सफाई कार्य की प्रत्येक तिथि पर नज़र रखें, ताकि आवश्यकता पड़ने पर आप परिवर्तन बदल सकें या कार्य हटा सकें
डेटा विश्लेषक साक्षात्कार प्रश्न
डेटा विश्लेषक साक्षात्कार प्रश्न

6) स्पष्ट करें कि क्या है तार्किक प्रतिगमन?

लॉजिस्टिक रिग्रेशन एक डेटासेट की जांच करने के लिए एक सांख्यिकीय पद्धति है जिसमें एक या अधिक स्वतंत्र चर होते हैं जो परिणाम को परिभाषित करते हैं।


7) कुछ सर्वोत्तम उपकरणों की सूची जो डेटा-विश्लेषण के लिए उपयोगी हो सकते हैं?

सर्वोत्तम डेटा विश्लेषण उपकरण निम्नलिखित हैं

  • झाँकी
  • RapidMiner
  • ओपन रिफाइन
  • पता है
  • Google खोज संचालक
  • सॉल्वर
  • नोडएक्सएल
  • io
  • वोल्फ्राम अल्फ़ा का
  • Google फ़्यूज़न टेबल

8) बताएं कि डेटा माइनिंग और डेटा प्रोफाइलिंग में क्या अंतर है?

डेटा माइनिंग और डेटा प्रोफाइलिंग के बीच अंतर यह है

डेटा प्रोफाइलिंग: यह व्यक्तिगत विशेषताओं के उदाहरण विश्लेषण पर लक्ष्य रखता है। यह विभिन्न विशेषताओं जैसे मूल्य सीमा, असतत मूल्य और उनकी आवृत्ति, शून्य मानों की घटना, डेटा प्रकार, लंबाई आदि पर जानकारी देता है।

डेटा खनन: यह क्लस्टर विश्लेषण, असामान्य रिकॉर्ड का पता लगाने, निर्भरता, अनुक्रम खोज, कई विशेषताओं के बीच संबंध रखने आदि पर केंद्रित है।

आईडी 100353945


9) डेटा विश्लेषक के सामने आने वाली कुछ सामान्य समस्याओं की सूची बनाएं?

डेटा विश्लेषक के सामने आने वाली कुछ सामान्य समस्याएं हैं

  • सामान्य गलत वर्तनी
  • डुप्लिकेट प्रविष्टियाँ
  • लापता मूल्य
  • अवैध मूल्य
  • भिन्न-भिन्न मूल्य प्रतिनिधित्व
  • ओवरलैपिंग डेटा की पहचान करना

10) वितरित कंप्यूटिंग वातावरण में किसी एप्लिकेशन के लिए बड़े डेटा सेट को संसाधित करने के लिए अपाचे द्वारा विकसित ढांचे का नाम बताएं?

Hadoop और MapReduce एक वितरित कंप्यूटिंग वातावरण में किसी एप्लिकेशन के लिए बड़े डेटा सेट को संसाधित करने के लिए अपाचे द्वारा विकसित प्रोग्रामिंग फ्रेमवर्क है।


11) उल्लेख करें कि वे कौन से लुप्त पैटर्न हैं जो आम तौर पर देखे जाते हैं?

आम तौर पर देखे जाने वाले गायब पैटर्न हैं

  • बेतरतीब ढंग से पूरी तरह से गायब
  • बेतरतीब ढंग से गायब
  • उसका गायब होना गायब मूल्य पर ही निर्भर करता है
  • उसका गायब होना न देखे गए इनपुट वेरिएबल पर निर्भर करता है

12) बताएं कि केएनएन प्रतिरूपण विधि क्या है?

KNN प्रतिरूपण में, लुप्त विशेषता मानों को उन विशेषता मानों का उपयोग करके आरोपित किया जाता है जो उस विशेषता के समान होते हैं जिनके मान गुम हैं। दूरी फ़ंक्शन का उपयोग करके, दो विशेषताओं की समानता निर्धारित की जाती है।


3) उल्लेख करें कि डेटा विश्लेषक द्वारा उपयोग की जाने वाली डेटा सत्यापन विधियाँ क्या हैं?

आमतौर पर, डेटा सत्यापन के लिए डेटा विश्लेषक द्वारा उपयोग की जाने वाली विधियाँ हैं

  • डेटा स्क्रीनिंग
  • डेटा सत्यापन

14) बताएं कि संदिग्ध या गायब डेटा के साथ क्या किया जाना चाहिए?

  • एक सत्यापन रिपोर्ट तैयार करें जो सभी संदिग्ध डेटा की जानकारी दे। इसे सत्यापन मानदंड जैसी जानकारी देनी चाहिए कि यह विफल रहा और घटना की तारीख और समय
  • अनुभवी कर्मियों को उनकी स्वीकार्यता निर्धारित करने के लिए संदिग्ध डेटा की जांच करनी चाहिए
  • अमान्य डेटा को असाइन किया जाना चाहिए और उसे सत्यापन कोड से प्रतिस्थापित किया जाना चाहिए
  • लुप्त डेटा पर काम करने के लिए सर्वोत्तम विश्लेषण रणनीति जैसे विलोपन विधि, एकल प्रतिरूपण विधि, मॉडल आधारित विधियाँ आदि का उपयोग करें।

15) बताएं कि बहु-स्रोत समस्याओं से कैसे निपटा जाए?

बहु-स्रोत समस्याओं से निपटने के लिए,

  • स्कीमा एकीकरण को पूरा करने के लिए स्कीमा का पुनर्गठन
  • समान रिकॉर्ड की पहचान करें और उन्हें बिना किसी अतिरेक के सभी प्रासंगिक विशेषताओं वाले एकल रिकॉर्ड में मर्ज करें

16) स्पष्ट करें कि आउटलेयर क्या है?

आउटलेयर आमतौर पर विश्लेषकों द्वारा इस्तेमाल किया जाने वाला शब्द है, जिसका संदर्भ एक ऐसे मूल्य से है जो बहुत दूर दिखाई देता है और एक नमूने में समग्र पैटर्न से भिन्न होता है। आउटलाइर्स दो प्रकार के होते हैं

  • univariate
  • बहुभिन्नरूपी

17) बताएं कि पदानुक्रमित क्लस्टरिंग एल्गोरिदम क्या है?

पदानुक्रमित क्लस्टरिंग एल्गोरिदम मौजूदा समूहों को जोड़ता है और विभाजित करता है, एक पदानुक्रमित संरचना बनाता है जो उस क्रम को प्रदर्शित करता है जिसमें समूह विभाजित या विलय होते हैं।


18) बताएं कि K-मीन एल्गोरिथम क्या है?

K माध्य एक प्रसिद्ध विभाजन विधि है। वस्तुओं को K समूहों में से एक के रूप में वर्गीकृत किया गया है, k को प्राथमिकता से चुना गया है।

K-मीन एल्गोरिथम में,

  • क्लस्टर गोलाकार होते हैं: क्लस्टर में डेटा बिंदु उस क्लस्टर के आसपास केंद्रित होते हैं
  • समूहों का विचरण/प्रसार समान है: प्रत्येक डेटा बिंदु निकटतम क्लस्टर से संबंधित है

19) बताएं कि डेटा विश्लेषक के लिए कौन से प्रमुख कौशल आवश्यक हैं?

एक डेटा साइंटिस्ट के पास निम्नलिखित कौशल होने चाहिए

  • डेटाबेस ज्ञान
  • डेटाबेस प्रबंधन
  • डेटा सम्मिश्रण
  • क्वेरी
  • डेटा मेनिपुलेशन
  • भविष्य कहनेवाला विश्लेषिकी
  • बुनियादी वर्णनात्मक आँकड़े
  • प्रेडिक्टिव मॉडलिंग
  • उन्नत विश्लेषण
  • बड़ा डेटा ज्ञान
  • बिग डेटा एनालिटिक्स
  • असंरचित डेटा विश्लेषण
  • मशीन लर्निंग
  • प्रस्तुति कौशल
  • डेटा विज़ुअलाइज़ेशन
  • अंतर्दृष्टि प्रस्तुति
  • रिपोर्ट डिज़ाइन

20) बताएं कि सहयोगात्मक फ़िल्टरिंग क्या है?

उपयोगकर्ता व्यवहार डेटा के आधार पर अनुशंसा प्रणाली बनाने के लिए सहयोगात्मक फ़िल्टरिंग एक सरल एल्गोरिदम है। सहयोगी फ़िल्टरिंग के सबसे महत्वपूर्ण घटक हैं उपयोगकर्ता- आइटम- रुचि.

सहयोगात्मक फ़िल्टरिंग का एक अच्छा उदाहरण तब होता है जब आप ऑनलाइन शॉपिंग साइटों पर "आपके लिए अनुशंसित" जैसा कोई कथन देखते हैं जो आपके ब्राउज़िंग इतिहास के आधार पर सामने आता है।


21) बताएं कि बिग डेटा में कौन से उपकरण उपयोग किए जाते हैं?

बिग डेटा में उपयोग किए जाने वाले उपकरण शामिल हैं

  • Hadoop
  • करंड
  • सुअर
  • नालिका
  • महावत
  • स्कूप

22) बताएं कि KPI क्या है, प्रयोगों का डिज़ाइन और 80/20 नियम क्या है?

भाकपा: यह मुख्य प्रदर्शन संकेतक के लिए है, यह एक मीट्रिक है जिसमें व्यावसायिक प्रक्रिया के बारे में स्प्रेडशीट, रिपोर्ट या चार्ट का कोई भी संयोजन शामिल होता है।

प्रयोगों की रूप रेखा: यह प्रारंभिक प्रक्रिया है जिसका उपयोग आपके डेटा को विभाजित करने, नमूना लेने और सांख्यिकीय विश्लेषण के लिए डेटा सेट करने के लिए किया जाता है

80/20 नियम: इसका मतलब है कि आपकी 80 प्रतिशत आय आपके 20 प्रतिशत ग्राहकों से आती है


23) बताएं कि मैप रिड्यूस क्या है?

मैप-रिड्यूस बड़े डेटा सेटों को संसाधित करने, उन्हें सबसेट में विभाजित करने, प्रत्येक सबसेट को एक अलग सर्वर पर संसाधित करने और फिर प्रत्येक पर प्राप्त परिणामों को मिश्रित करने के लिए एक रूपरेखा है।


24) बताएं कि क्लस्टरिंग क्या है? क्लस्टरिंग एल्गोरिदम के गुण क्या हैं?

क्लस्टरिंग एक वर्गीकरण पद्धति है जो डेटा पर लागू होती है। क्लस्टरिंग एल्गोरिदम डेटा सेट को प्राकृतिक समूहों या समूहों में विभाजित करता है।

क्लस्टरिंग एल्गोरिदम के लिए गुण हैं

  • श्रेणीबद्ध या सपाट
  • चलने का
  • कठोर और मुलायम
  • संधि तोड़नेवाला

25) कुछ सांख्यिकीय विधियाँ क्या हैं जो डेटा-विश्लेषक के लिए उपयोगी हैं?

डेटा वैज्ञानिकों के लिए उपयोगी सांख्यिकीय विधियाँ हैं

  • बायेसियन विधि
  • मार्कोव प्रक्रिया
  • स्थानिक और क्लस्टर प्रक्रियाएँ
  • रैंक आँकड़े, प्रतिशतक, आउटलेर्स का पता लगाना
  • प्रतिरूपण तकनीकें, आदि।
  • सिम्प्लेक्स एल्गोरिथ्म
  • गणितीय अनुकूलन

26) समय श्रृंखला विश्लेषण क्या है?

समय श्रृंखला विश्लेषण दो डोमेन, आवृत्ति डोमेन और समय डोमेन में किया जा सकता है। टाइम सीरीज़ विश्लेषण में विभिन्न तरीकों जैसे एक्सपोनेंशियल स्मूथनिंग, लॉग-लीनियर रिग्रेशन विधि आदि की मदद से पिछले डेटा का विश्लेषण करके किसी विशेष प्रक्रिया के आउटपुट का पूर्वानुमान लगाया जा सकता है।


27) बताएं कि कोरलोग्राम विश्लेषण क्या है?

भूगोल में स्थानिक विश्लेषण का सामान्य रूप कोरलोग्राम विश्लेषण है। इसमें विभिन्न स्थानिक संबंधों के लिए गणना की गई अनुमानित ऑटोसहसंबंध गुणांक की एक श्रृंखला शामिल है। इसका उपयोग दूरी-आधारित डेटा के लिए एक कोरेलोग्राम बनाने के लिए किया जा सकता है, जब कच्चे डेटा को अलग-अलग बिंदुओं पर मानों के बजाय दूरी के रूप में व्यक्त किया जाता है।


28) हैश टेबल क्या है?

कंप्यूटिंग में, हैश तालिका मानों की कुंजियों का एक मानचित्र है। यह है एक डेटा संरचना एक सहयोगी सरणी को लागू करने के लिए उपयोग किया जाता है। यह किसी इंडेक्स की गणना करने के लिए हैश फ़ंक्शन का उपयोग करता है सरणी स्लॉट्स की, जिनसे वांछित मूल्य प्राप्त किया जा सकता है।


29) हैश टेबल टकराव क्या हैं? इससे कैसे बचा जाता है?

हैश टेबल टकराव तब होता है जब दो अलग-अलग कुंजियाँ समान मान पर हैश होती हैं। दो डेटा को ऐरे में एक ही स्लॉट में संग्रहीत नहीं किया जा सकता है।

हैश टेबल टकराव से बचने के लिए कई तकनीकें हैं, यहां हम दो की सूची बना रहे हैं

  • अलग चेनिंग:

यह एक ही स्लॉट में हैश वाली कई वस्तुओं को संग्रहीत करने के लिए डेटा संरचना का उपयोग करता है।

  • खुला संबोधन:

यह दूसरे फ़ंक्शन का उपयोग करके अन्य स्लॉट की खोज करता है और पाए गए पहले खाली स्लॉट में आइटम को संग्रहीत करता है


29) बताएं कि आरोपण क्या है? विभिन्न प्रकार की आरोपण तकनीकों की सूची बनाएं?

अभिकलन के दौरान हम लुप्त डेटा को प्रतिस्थापित मानों से बदल देते हैं। इसमें शामिल प्रतिरूपण तकनीकों के प्रकार हैं

  • एकल प्रतिरूपण
  • हॉट-डेक प्रतिरूपण: पंच कार्ड की सहायता से यादृच्छिक रूप से चयनित समान रिकॉर्ड से एक लापता मान लगाया जाता है
  • कोल्ड डेक इंप्यूटेशन: यह हॉट डेक इंप्यूटेशन के समान ही काम करता है, लेकिन यह अधिक उन्नत है और अन्य डेटासेट से दाताओं का चयन करता है।
  • माध्य प्रतिरूपण: इसमें अन्य सभी मामलों के लिए लुप्त मान को उस चर के माध्य से प्रतिस्थापित करना शामिल है
  • प्रतिगमन प्रतिरूपण: इसमें अन्य चर के आधार पर एक चर के अनुमानित मूल्यों के साथ लुप्त मूल्य को प्रतिस्थापित करना शामिल है
  • स्टोकेस्टिक प्रतिगमन: यह प्रतिगमन प्रतिरूपण के समान है, लेकिन यह प्रतिगमन प्रतिरूपण में औसत प्रतिगमन विचरण जोड़ता है
  • एकाधिक आरोपण
  • एकल प्रतिनियुक्ति के विपरीत, एकाधिक प्रतिनियुक्ति कई बार मूल्यों का अनुमान लगाती है

30) कौन सी आरोपण विधि अधिक अनुकूल है?

यद्यपि एकल प्रतिरूपण का व्यापक रूप से उपयोग किया जाता है, यह यादृच्छिक रूप से गायब डेटा द्वारा बनाई गई अनिश्चितता को प्रतिबिंबित नहीं करता है। इसलिए, यादृच्छिक रूप से डेटा गायब होने की स्थिति में एकल आरोपण की तुलना में एकाधिक प्रतिरूपण अधिक अनुकूल है।


31) समझाइये कि एन-ग्राम क्या है?

एन-ग्राम:

एन-ग्राम पाठ या भाषण के दिए गए अनुक्रम से एन वस्तुओं का एक सन्निहित अनुक्रम है। यह (n-1) के रूप में ऐसे अनुक्रम में अगले आइटम की भविष्यवाणी करने के लिए एक प्रकार का संभाव्य भाषा मॉडल है।


32) बताएं कि एक अच्छे डेटा मॉडल के लिए मानदंड क्या हैं?

एक अच्छे डेटा मॉडल के मानदंड में शामिल हैं

  • इसका सेवन आसानी से किया जा सकता है
  • एक अच्छे मॉडल में बड़े डेटा परिवर्तन स्केलेबल होने चाहिए
  • इसे पूर्वानुमानित प्रदर्शन प्रदान करना चाहिए
  • एक अच्छा मॉडल आवश्यकताओं में बदलाव के अनुकूल हो सकता है

ये साक्षात्कार प्रश्न आपके मौखिक (मौखिक) में भी मदद करेंगे

Share

13 टिप्पणियाँ

  1. अवतार अजय कहते हैं:

    उत्तरों का अच्छा संग्रह. छोटा एवं सुन्दर

  2. अवतार मिच कहते हैं:

    प्रश्न #6 का उत्तर केवल आंशिक रूप से सही है... लॉजिस्टिक रिग्रेशन एक या अधिक व्याख्यात्मक/स्वतंत्र चर के आधार पर कुछ होने की संभावना/संभावनाओं को निर्धारित करने से संबंधित है। हालाँकि बाकी सब कुछ बढ़िया है! धन्यवाद।

    1. अवतार स्नेहा कहते हैं:

      हाँ, मैं भी यही सोच रहा था, यह उत्तर का केवल आधा हिस्सा है।

  3. अवतार गिदोन कहते हैं:

    बहुत अच्छा, मैं सराहना करता हूँ

  4. अवतार ओडोई स्टीफन कहते हैं:

    लेख के लिए बहुत-बहुत धन्यवाद, इससे मुझे वास्तव में बहुत मदद मिली

  5. अवतार लोगों के सामने पहली उपस्थिति करनेवाली कहते हैं:

    अच्छा सारांश और बहुत उपयोगी

  6. अवतार मुंशीसिंगा को पुरस्कृत करें कहते हैं:

    धन्यवाद जानकारी उपयोगी थी

  7. अवतार वाचेम्बा अमुज़ा कहते हैं:

    मुझे साक्षात्कार के उत्तरों में रुचि है और मैं इसे अपने मेल के माध्यम से प्राप्त करना चाहूंगा और इस उत्तर के लिए आपके सभी प्रयासों के लिए धन्यवाद, इसने मुझे पहले जैसा नहीं छोड़ा है

  8. अवतार टेफेरी कनेला कहते हैं:

    व्यवसाय के लिए बहुत उपयोगी और उत्कृष्ट मार्गदर्शक।

  9. अवतार मार्क डेग कहते हैं:

    पढ़ने लायक!!! धन्यवाद

  10. अवतार राजकुमारी के कहते हैं:

    वाह यह तो बहुत बढ़िया है

  11. अवतार यूसुफ मोहम्मद कहते हैं:

    कुछ सीखने का अवसर देने के लिए आभारी हूँ

एक जवाब लिखें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड इस तरह चिह्नित हैं *