Top 50 otázek a odpovědí na rozhovor s Apache Spark (2025)
Otázky k pohovoru Spark pro začátečníky a zkušené
Zde jsou otázky a odpovědi na pohovor Apache Spark pro nováčky i zkušené kandidáty Data Science, aby získali svou vysněnou práci.
1) Co je Apache Spark?
Apache Spark je snadno použitelný a flexibilní rámec pro zpracování dat. Jiskra se může zaokrouhlovat dál Hadoop, samostatně nebo v cloudu. Je schopen vyhodnotit různé zdroje dat, mezi které patří HDFS, Cassandra a další.
Zdarma ke stažení PDF: Otázky a odpovědi k rozhovoru s Apache Spark
2) Vysvětlete Dsstream s odkazem na Apache Spark
Dstream je sekvence odolných distribuovaných databází, které představují proud dat. Můžete vytvořit Dstream z různých zdrojů, jako je HDFS, Apache Flume, Apache Kafka, Etc.
3) Vyjmenujte tři zdroje dat dostupné v SparkSQL
V SparkSQL jsou k dispozici zdroje dat:
4) Vyjmenujte některé interní démony používané ve sparku?
Důležitými démony používanými ve sparku jsou Blockmanager, Memestore, DAGscheduler, Driver, Worker, Executor, Tasks atd.
5) Definujte pojem 'Řídký vektor'.
Řídký vektor je vektor, který má dvě paralelní pole, jedno pro indexy a druhé pro hodnoty, které se používají pro ukládání nenulových entit pro úsporu místa.
6) Uveďte jazyk, který Apache Spark podporuje pro vývoj aplikací pro velká data
Důležité použití jazyka pro vývoj aplikací pro velká data jsou:
- Jáva
- PYTHON
- R
- Clojure
- Scala
7) Jaký je způsob vytvoření datového rámce?
V Apache Spark lze datový rámec vytvořit pomocí tabulek v podregistru a strukturovaných datových souborů.
8) Vysvětlete SchemaRDD
RDD, který se skládá z řádkového objektu s informacemi o schématu o typu dat v každém sloupci, se nazývá SchemaRDD.
9) Co jsou to akumulátory?
Akumulátory jsou proměnné pouze pro zápis. Jsou jednou inicializovány a odeslány pracovníkům. Tito pracovníci se aktualizují na základě zapsané logiky, kterou pošlou zpět ovladači.
10) Jaké jsou součásti Spark Ecosystem?
Důležitou součástí Sparku jsou:
- SparkCore: Je to základní engine pro rozsáhlé paralelní a distribuované zpracování dat
- Spark Streaming: Tato komponenta se používá pro streamování dat v reálném čase.
- Jiskra SQL: Integruje relační zpracování pomocí funkčního programovacího API Spark
- GraphX: Umožňuje grafy a grafově paralelní výpočty
- MLlib: Umožňuje provádět strojové učení v Apache Spark
11) Vyjmenujte tři vlastnosti používání Apache Spark
Tři nejdůležitější vlastnosti používání Apache Spark jsou:
- Podpora pro sofistikovanou analýzu
- Pomáhá vám integrovat se s Hadoop a existujícími daty Hadoop
- Umožňuje vám spouštět aplikaci v clusteru Hadoop, až 100krát rychleji v paměti a desetkrát rychleji na disku.
12) Vysvětlete výchozí úroveň paralelismu v Apache Spark
Pokud uživatel není schopen zadat, pak se počet oddílů považuje za výchozí úroveň paralelismu v Apache Spark.
13) Vyjmenujte tři společnosti, které využívají služby Spark Streaming
Tři známé společnosti využívající služby Spark Streaming jsou:
- Uber
- Netflix
14) Co je Spark SQL?
Spark SQL je modul pro zpracování strukturovaných dat, kde využíváme SQL dotazy běžící na této databázi.
15) Vysvětlete soubor Parkety
Paraquet je soubor se sloupcovým formátem, který podporuje mnoho dalších systémů pro zpracování dat. Spark SQL vám umožňuje provádět operace čtení i zápisu se souborem Parquet.
16) Vysvětlete Spark Driver?
Spark Driver je program, který běží na hlavním uzlu stroje a deklaruje transformace a akce na datových RDD.
17) Jak můžete uložit data v jiskře?
Spark je procesor pro zpracování, který nemá žádný úložný modul. Dokáže načíst data z jiného úložiště, jako je HDFS, S3.
18) Vysvětlete použití File system API v Apache Spark
Souborový systém API umožňuje číst data z různých úložných zařízení, jako je HDFS, S3 nebo lokální Fileyste.
19) Co je úkolem Spark Engine
Spark Engine je užitečný pro plánování, distribuci a monitorování datové aplikace v celém clusteru.
20) Jaký je uživatel sparkContext?
SparkContent je vstupním bodem pro jiskru. SparkContext vám umožňuje vytvářet RDD, které poskytují různé způsoby zpracování dat.
21) Jak můžete implementovat strojové učení ve Sparku?
MLif je všestranná knihovna strojového učení od společnosti Spark.
22) Můžete provádět zpracování v reálném čase pomocí Spark SQL?
Zpracování dat v reálném čase není možné přímo. Je to však možné registrací existujícího RDD jako SQL tabulky a spouštění SQL dotazů na prioritu.
23) Jaké jsou důležité rozdíly mezi Apache a Hadoop
Parametr | Apache Spark | Hadoop |
Rychlost | 100krát rychlejší ve srovnání s Hadoopem. | Má střední rychlost. |
Zpracování | Funkce dávkového zpracování v reálném čase. | Nabízí pouze dávkové zpracování. |
Křivka učení | Snadný | Tvrdý |
Interaktivita | Má interaktivní režimy | Kromě Pig and Hive to nemá interaktivní způsob. |
24) můžete spustit Apache Spark na Apache Mesos?
Ano, Apache Spark můžete spustit na hardwarových clusterech spravovaných Mesos.
25) Vysvětlete oddíly
Partition je menší a logické rozdělení dat. Je to metoda pro odvození logických jednotek dat pro urychlení procesu zpracování.
26) Definujte pojem 'Lazy Evolution' s odkazem na Apache Spark
Apache Spark odkládá své vyhodnocení, dokud není potřeba. Pro transformace je Spark přidá do výpočtu DAG a pouze při odvození požaduje nějaká data.
27) Vysvětlete použití broadcast proměnných
Nejběžnější použití proměnných vysílání jsou:
- Vysílané proměnné pomáhají programátorovi udržovat proměnnou pouze pro čtení uloženou v mezipaměti na každém počítači, místo aby dodával její kopii s úkoly.
- Můžete je také použít k tomu, abyste každému uzlu poskytli kopii velké vstupní datové sady efektivním způsobem.
- Vysílací algoritmy vám také pomohou snížit náklady na komunikaci
28) Jak můžete Akka používat se Sparkem?
Spark používá k plánování použití Akka. Také používá Akka pro zasílání zpráv mezi dělníky a veliteli.
29) Což je základní datová struktura z Sparku
Datový rámec je základem základní datové struktury Sparku.
30) Můžete použít Spark pro proces ETL?
Ano, můžete použít jiskru pro proces ETL.
31) K čemu slouží transformace map?
Transformace mapy na RDD vytvoří další RDD překladem každého prvku. Pomůže vám přeložit každý prvek provedením funkce poskytnuté uživatelem.
32) Jaké jsou nevýhody používání Sparku?
Níže jsou uvedeny některé z nevýhod používání Spark:
- Spark spotřebovává obrovské množství dat ve srovnání s Hadoopem.
- Nemůžete provozovat vše na jednom uzlu, protože práce musí být nedůvěryhodná ve více clusterech.
- Vývojáři potřebují zvláštní péči při spouštění své aplikace ve Sparku.
- Streamování Spark neposkytuje podporu pro kritéria okna založená na záznamu.
33) Jaká jsou běžná použití Apache Spark?
- Apache Spark se používá pro:
- Interaktivní strojové učení
- Zpracování streamu
- Analýza a zpracování dat
- Zpracování dat ze senzorů
34) Uveďte rozdíl mezi funkcemi persist() a cache().
Funkce Persist() umožňuje uživateli určit úroveň úložiště, zatímco cache() používá výchozí úroveň úložiště.
35) Pojmenujte Spark Library, která umožňuje spolehlivé sdílení souborů rychlostí paměti napříč různými clusterovými frameworky.
Tachyon je spark knihovna, která umožňuje spolehlivé sdílení souborů rychlostí paměti napříč různými clusterovými frameworky.
36) Apache Spark je vhodný pro jaký typ technik strojového učení?
Apache Spark je ideální pro jednoduché algoritmy strojového učení, jako je shlukování, regrese a klasifikace.
37) Jak můžete odstranit prvek s kritickým přítomným v jakémkoli jiném Rdd is Apache spark?
Chcete-li odstranit prvky s klíčem přítomným v jakémkoli jiném rdd, musíte použít funkci substractkey().
38) K čemu slouží kontrolní body v jiskře?
Kontrolní body umožňují, aby program běžel nepřetržitě. Navíc pomáhá, aby byl odolný vůči selhání bez ohledu na aplikační logiku.
39) Vysvětlete rodový graf
Počítač s informacemi o grafu linie každý RDD na vyžádání. Proto kdykoli dojde ke ztrátě části trvalého RDD. V takovém případě můžete tato data obnovit pomocí informací z grafu linie.
40) Jaké formáty souborů podporuje spark?
Spark podporuje formát souborů json, tsv, snappy, orc, rc atd.
41) Co jsou akce?
Akce vám pomůže vrátit data z RDD na místní počítač. Jeho provedení je výsledkem všech dříve vytvořených transformací.
42) Co je příze?
Příze je jednou z nejdůležitějších vlastností Apache Spark. Běžící jiskra na přízi vytváří binární distribuci jiskry, protože je postavena na podpoře příze.
43) Vysvětlete Spark Executor
Exekutor je proces Spark, který spouští výpočty a ukládá data na pracovním uzlu. Konečné úkoly SparkContent jsou převedeny na exekutora k jejich provedení.
44) je nutné nainstalovat Spark na všechny uzly při spuštění aplikace Spark na Yarn?
Ne, nemusíte nutně instalovat jiskru na všechny uzly, protože jiskra běží na přízi.
45) Co je to pracovní uzel v Apache Spark?
Pracovní uzel je jakýkoli uzel, který může spouštět kód aplikace v clusteru.
46) Jak můžete spustit úlohy Spark v Hadoop MapReduce?
Spark v MapReduce umožňuje uživatelům spouštět všechny druhy zapalovacích úloh v MapReduce bez nutnosti získat administrátorská práva pro danou aplikaci.
47) Vysvětlete proces spuštění automatického čištění ve Sparku za účelem správy nashromážděných metadat.
Automatické čištění můžete spustit zobrazením parametru 'spark.cleaner.ttf nebo rozdělením dlouhotrvajících úloh do různých dávek a zapsáním mezivýsledků na disk.
48) Vysvětlete použití Blinkdb
BlinkDB je nástroj pro dotazovací modul, který vám umožňuje spouštět dotazy SQL na obrovské objemy dat a vykresluje výsledky dotazů ve smysluplných chybových úsecích.
49) Zvládá Hoe Spark monitorování a protokolování v režimu Standalone?
Ano, spark zvládne monitorování a přihlašování v samostatném režimu, protože má webové uživatelské rozhraní.
50) Jak můžete určit, zda je daná operace Transformace nebo Akce?
Operaci můžete identifikovat na základě návratového typu. Pokud návratový typ není RDD, pak je operace akcí. Pokud je však návratový typ stejný jako RDD, pak je operací transformace.
51) Můžete použít Apache Spark k analýze a přístupu k datům uloženým v databázích Cassandra?
Ano, můžete použít Spark Cassandra Connector, který vám umožňuje přistupovat a analyzovat data uložená v databázi Cassandra.
52) Uveďte rozdíl mezi Spark SQL a Hql
SparkSQL je nezbytnou součástí enginu spark Core. Podporuje SQL a Hive Query Language beze změny jeho syntaxe.
Tyto otázky na pohovoru také pomohou ve vašem životě (ústních)