शीर्ष 52 अपाचे स्पार्क साक्षात्कार प्रश्न और उत्तर (2025)

नए और अनुभवी लोगों के लिए स्पार्क साक्षात्कार प्रश्न

यहां नए लोगों के साथ-साथ अनुभवी डेटा साइंस उम्मीदवारों के लिए अपने सपनों की नौकरी पाने के लिए अपाचे स्पार्क साक्षात्कार प्रश्न और उत्तर दिए गए हैं।

1) अपाचे स्पार्क क्या है?

अपाचे स्पार्क का उपयोग करना आसान और लचीला डेटा प्रोसेसिंग ढांचा है। चिंगारी घूम सकती है Hadoop, स्टैंडअलोन, या बादल में। यह विविध डेटा स्रोत का आकलन करने में सक्षम है, जिसमें एचडीएफएस, कैसेंड्रा और अन्य शामिल हैं।

नि:शुल्क पीडीएफ डाउनलोड: अपाचे स्पार्क साक्षात्कार प्रश्न और उत्तर

2) अपाचे स्पार्क के संदर्भ में डीएसस्ट्रीम की व्याख्या करें

डीस्ट्रीम लचीले वितरित डेटाबेस का एक अनुक्रम है जो डेटा की एक धारा का प्रतिनिधित्व करता है। आप एचडीएफएस, अपाचे फ्लूम, अपाचे जैसे विभिन्न स्रोतों से डीस्ट्रीम बना सकते हैं काफ्का, आदि

3) स्पार्कएसक्यूएल में उपलब्ध तीन डेटा स्रोतों के नाम बताइए

स्पार्कएसक्यूएल में उपलब्ध डेटा स्रोत हैं:

JSON डेटासेट
करंड टेबल
लकड़ी की छत फ़ाइल

4) स्पार्क में प्रयुक्त कुछ आंतरिक डेमॉन के नाम बताएं?

स्पार्क में उपयोग किए जाने वाले महत्वपूर्ण डेमॉन हैं ब्लॉकमैनेजर, मेमस्टोर, डीएजी शेड्यूलर, ड्राइवर, वर्कर, एक्ज़ीक्यूटर, टास्क आदि।

5) 'विरल वेक्टर' शब्द को परिभाषित करें।

स्पार्स वेक्टर एक वेक्टर है जिसमें दो समानांतर सरणियाँ होती हैं, एक सूचकांक के लिए, एक मान के लिए, स्थान बचाने के लिए गैर-शून्य इकाइयों को संग्रहीत करने के लिए उपयोग किया जाता है।

6) बड़े डेटा अनुप्रयोगों को विकसित करने के लिए अपाचे स्पार्क द्वारा समर्थित भाषा का नाम बताइए

बड़े डेटा एप्लिकेशन को विकसित करने के लिए महत्वपूर्ण भाषा का उपयोग हैं:

जावा
अजगर
R
Clojure
स्काला

7) डेटा फ़्रेम बनाने की विधि क्या है?

अपाचे स्पार्क में, हाइव और संरचित डेटा फ़ाइलों में तालिकाओं का उपयोग करके एक डेटा फ़्रेम बनाया जा सकता है।

8) स्कीमाआरडीडी की व्याख्या करें

एक आरडीडी जिसमें प्रत्येक कॉलम में डेटा के प्रकार के बारे में स्कीमा जानकारी के साथ पंक्ति ऑब्जेक्ट होता है, स्कीमाआरडीडी कहलाता है।

9) संचायक क्या हैं?

संचायक केवल लिखने योग्य चर हैं। उन्हें एक बार प्रारंभ किया जाता है और श्रमिकों को भेजा जाता है। ये कर्मचारी लिखे गए तर्क के आधार पर अपडेट करेंगे, जिसे ड्राइवर को वापस भेज दिया जाएगा।

10) स्पार्क इकोसिस्टम के घटक क्या हैं?

स्पार्क का एक महत्वपूर्ण घटक हैं:

स्पार्क कोर: यह बड़े पैमाने पर समानांतर और वितरित डेटा प्रोसेसिंग के लिए एक बेस इंजन है
स्पार्क स्ट्रीमिंग: यह घटक वास्तविक समय डेटा स्ट्रीमिंग के लिए उपयोग किया जाता है।
स्पार्क एसक्यूएल: स्पार्क के कार्यात्मक प्रोग्रामिंग एपीआई का उपयोग करके संबंधपरक प्रसंस्करण को एकीकृत करता है
ग्राफएक्स: ग्राफ़ और ग्राफ़-समानांतर गणना की अनुमति देता है
एमएललिब: आपको अपाचे स्पार्क में मशीन लर्निंग करने की अनुमति देता है

11) अपाचे स्पार्क का उपयोग करने की तीन विशेषताओं का नाम बताइए

अपाचे स्पार्क का उपयोग करने की तीन सबसे महत्वपूर्ण विशेषताएं हैं:

परिष्कृत विश्लेषिकी के लिए समर्थन
आपको Hadoop और मौजूदा Hadoop डेटा के साथ एकीकृत करने में मदद करता है
यह आपको Hadoop क्लस्टर में एप्लिकेशन को मेमोरी में 100 गुना तेज और डिस्क पर दस गुना तेज चलाने की अनुमति देता है।

12) अपाचे स्पार्क में समानता के डिफ़ॉल्ट स्तर की व्याख्या करें

यदि उपयोगकर्ता निर्दिष्ट करने में सक्षम नहीं है, तो अपाचे स्पार्क में विभाजन की संख्या को समानता के डिफ़ॉल्ट स्तर के रूप में माना जाता है।

13) तीन कंपनियों के नाम बताइए जो स्पार्क स्ट्रीमिंग सेवाओं का उपयोग करती हैं

स्पार्क स्ट्रीमिंग सेवाओं का उपयोग करने वाली तीन ज्ञात कंपनियां हैं:

Uber
नेटफ्लिक्स
पिंटरेस्ट

14) स्पार्क एसक्यूएल क्या है?

स्पार्क एसक्यूएल संरचित डेटा प्रोसेसिंग के लिए एक मॉड्यूल है जहां हम उस डेटाबेस पर चल रहे एसक्यूएल प्रश्नों का लाभ उठाते हैं।

15) पैराक्वेट फाइल को समझाइये

पैराक्वेट एक स्तंभ प्रारूप फ़ाइल है जो कई अन्य डेटा प्रोसेसिंग प्रणालियों द्वारा समर्थित है। स्पार्क SQL आपको Parquet फ़ाइल के साथ पढ़ने और लिखने दोनों ऑपरेशन करने की अनुमति देता है।

16) स्पार्क ड्राइवर के बारे में बताएं?

स्पार्क ड्राइवर वह प्रोग्राम है जो मशीन के मास्टर नोड पर चलता है और डेटा आरडीडी पर परिवर्तनों और कार्यों की घोषणा करता है।

17) आप डेटा को स्पार्क में कैसे स्टोर कर सकते हैं?

स्पार्क एक प्रोसेसिंग इंजन है जिसमें कोई स्टोरेज इंजन नहीं है। यह HDFS, S3 जैसे किसी अन्य स्टोरेज इंजन से डेटा पुनर्प्राप्त कर सकता है।

18) अपाचे स्पार्क में फाइल सिस्टम एपीआई के उपयोग की व्याख्या करें

संचिका तंत्र API आपको HDFS, S3 या स्थानीय Fileyste जैसे विभिन्न स्टोरेज डिवाइस से डेटा पढ़ने की अनुमति देता है।

19) स्पार्क इंजन का कार्य क्या है?

स्पार्क इंजन पूरे क्लस्टर में डेटा एप्लिकेशन को शेड्यूल करने, वितरित करने और मॉनिटर करने में सहायक है।

20) sparkContext का उपयोगकर्ता क्या है?

स्पार्ककंटेंट स्पार्क का प्रवेश बिंदु है। स्पार्ककॉन्टेक्स्ट आपको आरडीडी बनाने की अनुमति देता है जो डेटा मंथन के विभिन्न तरीके प्रदान करता है।

21) आप स्पार्क में मशीन लर्निंग कैसे लागू कर सकते हैं?

एमएलआईएफ स्पार्क द्वारा दी गई एक बहुमुखी मशीन लर्निंग लाइब्रेरी है।

22) क्या आप स्पार्क एसक्यूएल के साथ रीयल-टाइम प्रोसेसिंग कर सकते हैं?

रीयल-टाइम डेटा प्रोसेसिंग सीधे संभव नहीं है। हालाँकि, मौजूदा RDD को SQL तालिका के रूप में पंजीकृत करके और प्राथमिकता पर SQL क्वेरी को ट्रिगर करके यह संभव है।

23) अपाचे और Hadoop के बीच महत्वपूर्ण अंतर क्या हैं

प्राचल	अपाचे स्पार्क	Hadoop
गति	Hadoop की तुलना में 100 गुना तेज़।	इसकी गति मध्यम है.
प्रसंस्करण	वास्तविक समय बैच प्रसंस्करण कार्यक्षमता।	यह केवल बैच प्रोसेसिंग प्रदान करता है।
सीखने की अवस्था	आसान	कठिन
अन्तरक्रियाशीलता	इसमें इंटरैक्टिव मोड हैं	सुअर और छत्ते के अलावा इसका कोई इंटरैक्टिव तरीका नहीं है।

24) क्या आप अपाचे मेसोस पर अपाचे स्पार्क चला सकते हैं?

हां, आप अपाचे स्पार्क को मेसोस द्वारा प्रबंधित हार्डवेयर क्लस्टर पर चला सकते हैं।

25)विभाजन समझाइये

विभाजन डेटा का एक छोटा और तार्किक विभाजन है। यह प्रसंस्करण प्रक्रिया को तेज करने के लिए डेटा की तार्किक इकाइयों को प्राप्त करने की विधि है।

26) अपाचे स्पार्क के संदर्भ में 'आलसी विकास' शब्द को परिभाषित करें

अपाचे स्पार्क अपने मूल्यांकन में तब तक देरी करता है जब तक इसकी आवश्यकता न हो। परिवर्तनों के लिए, स्पार्क उन्हें गणना के डीएजी में जोड़ता है और केवल तभी जब कुछ डेटा का अनुरोध किया जाता है।

27) प्रसारण चर के उपयोग की व्याख्या करें

प्रसारण चर का सबसे आम उपयोग हैं:

ब्रॉडकास्ट वैरिएबल प्रोग्रामर को कार्यों के साथ इसकी एक प्रति भेजने के बजाय प्रत्येक मशीन पर केवल पढ़ने योग्य वैरिएबल को कैश्ड रखने में मदद करते हैं।
आप प्रत्येक नोड को कुशल तरीके से बड़े इनपुट डेटासेट की एक प्रति देने के लिए भी उनका उपयोग कर सकते हैं।
प्रसारण एल्गोरिदम आपको संचार लागत कम करने में भी मदद करते हैं

28) आप स्पार्क के साथ अक्का का उपयोग कैसे कर सकते हैं?

स्पार्क शेड्यूलिंग के लिए अक्का का उपयोग करता है। यह श्रमिकों और मालिकों के बीच संदेश भेजने के लिए अक्का का भी उपयोग करता है।

29) जो मौलिक है डेटा संरचना स्पार्क का

डेटा फ़्रेम मौलिक है स्पार्क की मौलिक डेटा संरचना है।

30) क्या आप ईटीएल प्रक्रिया के लिए स्पार्क का उपयोग कर सकते हैं?

हां, आप ईटीएल प्रक्रिया के लिए स्पार्क का उपयोग कर सकते हैं।

31) मानचित्र परिवर्तन का क्या उपयोग है?

RDD पर मानचित्र परिवर्तन प्रत्येक तत्व का अनुवाद करके एक और RDD उत्पन्न करता है। यह उपयोगकर्ता द्वारा प्रदान किए गए फ़ंक्शन को निष्पादित करके प्रत्येक तत्व का अनुवाद करने में आपकी सहायता करता है।

32) स्पार्क का उपयोग करने के क्या नुकसान हैं?

स्पार्क का उपयोग करने के कुछ नुकसान निम्नलिखित हैं:

Hadoop की तुलना में स्पार्क भारी मात्रा में डेटा की खपत करता है।
आप सब कुछ एक ही नोड पर नहीं चला सकते क्योंकि कई समूहों पर काम पर भरोसा नहीं किया जाना चाहिए।
डेवलपर्स को स्पार्क में अपना एप्लिकेशन चलाते समय अतिरिक्त देखभाल की आवश्यकता होती है।
स्पार्क स्ट्रीमिंग रिकॉर्ड-आधारित विंडो मानदंड के लिए समर्थन प्रदान नहीं करती है।

33) अपाचे स्पार्क के सामान्य उपयोग क्या हैं?

अपाचे स्पार्क का उपयोग इसके लिए किया जाता है:
इंटरएक्टिव मशीन लर्निंग
स्ट्रीम प्रसंस्करण
डेटा विश्लेषण और प्रसंस्करण
सेंसर डेटा प्रोसेसिंग

34) पर्सिस्ट() और कैशे() फ़ंक्शन के बीच अंतर बताएं।

Persist() फ़ंक्शन उपयोगकर्ता को संग्रहण स्तर निर्दिष्ट करने की अनुमति देता है जबकि कैश() डिफ़ॉल्ट संग्रहण स्तर का उपयोग करता है।

35) स्पार्क लाइब्रेरी का नाम बताएं जो विभिन्न क्लस्टर फ्रेमवर्क में मेमोरी स्पीड पर विश्वसनीय फ़ाइल साझा करने की अनुमति देता है।

टैचियन एक स्पार्क लाइब्रेरी है जो विभिन्न क्लस्टर फ्रेमवर्क में मेमोरी स्पीड पर विश्वसनीय फ़ाइल साझा करने की अनुमति देती है।

36) अपाचे स्पार्क किस प्रकार की मशीन लर्निंग तकनीकों के लिए उपयुक्त है?

अपाचे स्पार्क क्लस्टरिंग, रिग्रेशन और वर्गीकरण जैसे सरल मशीन लर्निंग एल्गोरिदम के लिए आदर्श है।

37) आप किसी अन्य आरडीडी अपाचे स्पार्क में मौजूद महत्वपूर्ण तत्व को कैसे हटा सकते हैं?

किसी अन्य आरडीडी में मौजूद कुंजी वाले तत्वों को हटाने के लिए, आपको सब्ट्रैक्टकी() फ़ंक्शन का उपयोग करने की आवश्यकता है।

38) चिंगारी में चौकियों का क्या उपयोग है?

चेकप्वाइंट प्रोग्राम को चौबीसों घंटे चलने की अनुमति देते हैं। इसके अलावा, यह एप्लिकेशन लॉजिक की परवाह किए बिना विफलता के प्रति इसे लचीला बनाने में मदद करता है।

39) वंशावली ग्राफ समझाइये

वंशावली ग्राफ सूचना कंप्यूटर प्रत्येक आरडीडी मांग पर। इसलिए, जब भी लगातार RDD का एक हिस्सा खो जाता है। उस स्थिति में, आप वंश ग्राफ जानकारी का उपयोग करके इस डेटा को पुनर्प्राप्त कर सकते हैं।

40) स्पार्क द्वारा समर्थित फ़ाइल स्वरूप क्या हैं?

स्पार्क फ़ाइल प्रारूप json, tsv, snappy, orc, rc, आदि का समर्थन करता है।

41) क्रियाएँ क्या हैं?

एक्शन आपको आरडीडी से स्थानीय मशीन पर डेटा वापस लाने में मदद करता है। इसका निष्पादन पहले बनाए गए सभी परिवर्तनों का परिणाम है।

42) सूत क्या है?

यार्न अपाचे स्पार्क की सबसे महत्वपूर्ण विशेषताओं में से एक है। यार्न पर स्पार्क चलाने से स्पार्क का द्विआधारी वितरण होता है क्योंकि यह यार्न समर्थन पर बनाया गया है।

43) स्पार्क एक्ज़ीक्यूटर को समझाइये

निष्पादक एक स्पार्क प्रक्रिया है जो गणना चलाता है और कार्यकर्ता नोड पर डेटा संग्रहीत करता है। स्पार्ककंटेंट द्वारा अंतिम कार्यों को उनके निष्पादन के लिए निष्पादक को स्थानांतरित कर दिया जाता है।

44) क्या यार्न पर स्पार्क एप्लिकेशन चलाते समय सभी नोड्स पर स्पार्क स्थापित करना आवश्यक है?

नहीं, आपको सभी नोड्स पर स्पार्क स्थापित करने की आवश्यकता नहीं है क्योंकि स्पार्क यार्न के शीर्ष पर चलता है।

45) अपाचे स्पार्क में वर्कर नोड क्या है?

वर्कर नोड कोई भी नोड होता है जो क्लस्टर में एप्लिकेशन कोड चला सकता है।

46) आप Hadoop MapReduce के अंदर स्पार्क जॉब्स कैसे लॉन्च कर सकते हैं?

MapReduce में स्पार्क उपयोगकर्ताओं को उस एप्लिकेशन के व्यवस्थापक अधिकार प्राप्त करने की आवश्यकता के बिना MapReduce के अंदर सभी प्रकार के स्पार्क जॉब चलाने की अनुमति देता है।

47) संचित मेटाडेटा को प्रबंधित करने के लिए स्पार्क में स्वचालित क्लीन-अप ट्रिगर करने की प्रक्रिया समझाएं।

आप पैरामीटर 'spark.cleaner.ttf' को देखकर या लंबे समय से चल रही नौकरियों को विभिन्न बैचों में अलग करके और मध्यवर्ती परिणामों को डिस्क पर लिखकर स्वचालित सफाई को ट्रिगर कर सकते हैं।

48) ब्लिंकडीबी के उपयोग को समझाइये

ब्लिंकडीबी एक क्वेरी इंजन टूल है जो आपको बड़ी मात्रा में डेटा पर एसक्यूएल क्वेरी निष्पादित करने की अनुमति देता है और क्वेरी परिणामों को सार्थक त्रुटि बार में प्रस्तुत करता है।

49) क्या हो स्पार्क स्टैंडअलोन मोड में निगरानी और लॉगिंग संभालता है?

हाँ, एक स्पार्क स्टैंडअलोन मोड में निगरानी और लॉगिंग को संभाल सकता है क्योंकि इसमें एक वेब-आधारित उपयोगकर्ता इंटरफ़ेस है।

50) आप कैसे पहचान सकते हैं कि दिया गया ऑपरेशन परिवर्तन है या कार्रवाई?

आप रिटर्न प्रकार के आधार पर ऑपरेशन की पहचान कर सकते हैं। यदि रिटर्न प्रकार RDD नहीं है, तो ऑपरेशन एक क्रिया है। हालाँकि, यदि रिटर्न प्रकार RDD के समान है, तो ऑपरेशन परिवर्तन है।

51) क्या आप कैसेंड्रा डेटाबेस में संग्रहीत डेटा का विश्लेषण और एक्सेस करने के लिए अपाचे स्पार्क का उपयोग कर सकते हैं?

हां, आप स्पार्क कैसेंड्रा कनेक्टर का उपयोग कर सकते हैं जो आपको कैसेंड्रा डेटाबेस में संग्रहीत डेटा तक पहुंचने और उसका विश्लेषण करने की अनुमति देता है।

52) स्पार्क एसक्यूएल और एचक्यूएल के बीच अंतर बताएं

स्पार्कएसक्यूएल स्पार्क कोर इंजन पर एक आवश्यक घटक है। यह अपने सिंटैक्स में बदलाव किए बिना SQL और Hive क्वेरी लैंग्वेज को सपोर्ट करता है।

ये साक्षात्कार प्रश्न आपके मौखिक (मौखिक) में भी मदद करेंगे

आपको पसंद हो श्याद: