En İyi 30 Veri Analisti Mülakat Soruları ve Cevapları (2024)
İşte yeni başlayanlar ve deneyimli veri analitiği adaylarının hayallerindeki işi bulmaları için Veri Analisti röportaj soruları ve yanıtları.
Ücretsiz PDF İndir: Veri Analisti Mülakat Soruları
1) Veri analistinin sorumluluklarından bahsedin?
Bir Veri analistinin sorumluluğu şunları içerir:
- Tüm veri analizine destek sağlayın ve müşteriler ve personel ile koordinasyon sağlayın
- Müşteriler ve performans için işle ilgili sorunları çözün denetim verilerde
- İstatistiksel teknikleri kullanarak sonuçları analiz edin ve verileri yorumlayın ve sürekli raporlar sağlayın
- İş ihtiyaçlarını önceliklendirin ve yönetim ve bilgi ihtiyaçlarıyla yakın işbirliği içinde çalışın
- İyileştirme fırsatları için yeni süreç veya alanları belirleyin
- Karmaşık veri kümelerindeki eğilimleri veya kalıpları analiz edin, tanımlayın ve yorumlayın
- Birincil veya ikincil veri kaynaklarından veri elde edin ve veri tabanlarını / veri sistemlerini koruyun
- Verileri filtreleyip "temizleyin" ve bilgisayar raporlarını inceleyin
- Kod sorunlarını tespit etmek ve düzeltmek için performans göstergelerini belirleyin
- Kullanıcı erişim düzeyinin belirlenerek erişim sisteminin geliştirilerek veritabanı güvenliğinin sağlanması
2) Veri analisti olmak için neler gereklidir?
Veri analisti olmak için,
- Raporlama paketleri (İş Nesneleri), programlama dili (XML, Javascript veya ETL çerçeveleri), veritabanları (SQL, SQLit, vb.)
- Büyük verileri doğrulukla analiz etme, organize etme, toplama ve yayma becerisine sahip güçlü beceriler
- Veritabanı tasarımı, veri modelleri, veri madenciliği ve segmentasyon teknikleri konusunda teknik bilgi
- Büyük veri kümelerini analiz etmek için istatistiksel paketler hakkında güçlü bilgi (SAS, Excel, SPSS, vb.)
3) Bir analitik projesindeki çeşitli adımların neler olduğundan bahsedin?
Bir analiz projesindeki çeşitli adımlar şunları içerir:
- Problem tanımı
- Veri keşfi
- Veri Hazırlama
- Modelleme
- Verilerin doğrulanması
- Uygulama ve izleme
4) Veri temizliğinin ne olduğundan bahsedin?
Veri temizleme olarak da adlandırılan veri temizleme, verinin kalitesini artırmak için verilerdeki hataların ve tutarsızlıkların belirlenmesi ve kaldırılmasıyla ilgilenir.
5) Veri temizlemeye yönelik en iyi uygulamalardan bazılarını listeler misiniz?
Veri temizlemeye yönelik en iyi uygulamalardan bazıları şunlardır:
- Verileri farklı özelliklere göre sıralayın
- Büyük veri kümeleri için adım adım temizleyin ve iyi bir veri kalitesi elde edene kadar her adımda verileri iyileştirin
- Büyük veri kümelerini küçük verilere bölün. Daha az veriyle çalışmak yineleme hızınızı artıracaktır
- Ortak temizleme görevini gerçekleştirmek için bir dizi yardımcı işlev/araç/komut dosyası oluşturun. Bir CSV dosyasına veya SQL veritabanına dayalı olarak değerlerin yeniden eşlenmesini veya normal ifadeyle arama ve değiştirmeyi, bir normal ifadeyle eşleşmeyen tüm değerlerin silinmesini içerebilir.
- Veri temizliğiyle ilgili bir sorununuz varsa, bunları tahmini sıklığa göre düzenleyin ve en yaygın sorunlara saldırın.
- Her sütun için özet istatistikleri analiz edin (standart sapma, ortalama, eksik değerlerin sayısı),
- Her tarih temizleme işlemini takip edin, böylece gerekirse değişiklikleri değiştirebilir veya işlemleri kaldırabilirsiniz
6) Ne olduğunu açıklayın lojistik gerileme mi?
Lojistik regresyon, bir sonucu tanımlayan bir veya daha fazla bağımsız değişkenin bulunduğu bir veri kümesini incelemek için kullanılan istatistiksel bir yöntemdir.
7) Veri analizi için faydalı olabilecek en iyi araçların listesi?
Aşağıdakiler en iyi veri analizi araçlarıdır
- Tablo
- RapidMiner
- Açık Refine
- BIÇAK
- Google Arama Operatörleri
- Çözücü
- Düğüm XL
- io
- Wolfram Alpha'nın
- Google Füzyon tabloları
8) Veri madenciliği ile veri profilleme arasındaki farkın ne olduğundan bahsedin?
Veri madenciliği ile veri profili oluşturma arasındaki fark şudur:
Veri profili oluşturma: Bireysel niteliklerin örnek analizini hedefler. Değer aralığı, ayrık değer ve bunların sıklığı, boş değerlerin oluşumu, veri türü, uzunluk vb. gibi çeşitli özellikler hakkında bilgi verir.
Veri madenciliği: Küme analizi, olağandışı kayıtların tespiti, bağımlılıklar, dizi keşfi, çeşitli özellikler arasındaki ilişkilerin korunması vb. konularına odaklanır.
9) Veri analistlerinin karşılaştığı bazı yaygın sorunları sıralayın?
Veri analistlerinin karşılaştığı yaygın sorunlardan bazıları şunlardır:
- Yaygın yazım hataları
- Yinelenen girişler
- Kayıp değerler
- Yasa dışı değerler
- Değişen değer gösterimleri
- Çakışan verileri belirleme
10) Dağıtılmış bir bilgi işlem ortamındaki bir uygulama için büyük veri setini işlemek üzere Apache tarafından geliştirilen çerçevenin adından bahseder misiniz?
Hadoop'un ve MapReduce, dağıtılmış bir bilgi işlem ortamındaki bir uygulama için büyük veri kümesini işlemek üzere Apache tarafından geliştirilen programlama çerçevesidir.
11) Genel olarak gözlemlenen eksik kalıpların neler olduğundan bahsedin?
Genel olarak gözlemlenen eksik modeller şunlardır:
- Tamamen rastgele kayıp
- rastgele eksik
- Eksik olan, eksik değerin kendisine bağlıdır
- Gözlemlenmeyen giriş değişkenine bağlı olan eksik
12) KNN atama yöntemi nedir açıklayınız?
KNN atamasında eksik öznitelik değerleri, değerleri eksik olan özniteliğe en çok benzeyen öznitelik değeri kullanılarak atanır. Uzaklık fonksiyonu kullanılarak iki özelliğin benzerliği belirlenir.
3) Veri analistinin kullandığı veri doğrulama yöntemleri nelerdir?
Genellikle veri analistinin veri doğrulama için kullandığı yöntemler şunlardır:
- Veri taraması
- Veri doğrulama
14) Şüphelenilen veya eksik verilerle ne yapılması gerektiğini açıklayın?
- Şüphelenilen tüm veriler hakkında bilgi veren bir doğrulama raporu hazırlayın. Başarısız olduğu doğrulama kriterleri ve gerçekleşme tarihi ve saati gibi bilgileri vermelidir.
- Deneyimli personel, kabul edilebilirliğini belirlemek için şüpheli verileri incelemelidir.
- Geçersiz veriler atanmalı ve bir doğrulama koduyla değiştirilmelidir
- Eksik veriler üzerinde çalışmak için silme yöntemi, tek atama yöntemleri, model tabanlı yöntemler vb. gibi en iyi analiz stratejisini kullanın.
15) Çok kaynaklı sorunların nasıl çözüleceğini söyleyin?
Çok kaynaklı sorunların üstesinden gelmek için,
- Şema entegrasyonunu gerçekleştirmek için şemaların yeniden yapılandırılması
- Benzer kayıtları tanımlayın ve bunları, fazlalık olmadan ilgili tüm nitelikleri içeren tek bir kayıtta birleştirin
16) Aykırı Değer nedir açıklayınız?
Aykırı değer, çok uzakta görünen ve bir numunedeki genel modelden farklılaşan bir değer için analistlerin sıklıkla kullandığı bir terimdir. İki tür Aykırı Değer vardır
- Tek değişkenli
- Çok değişkenli
17) Hiyerarşik Kümeleme Algoritması nedir açıklayınız?
Hiyerarşik kümeleme algoritması, mevcut grupları birleştirerek ve bölerek, grupların bölünme veya birleştirilme sırasını gösteren hiyerarşik bir yapı oluşturur.
18) K-ortalama algoritması nedir açıklayınız?
K ortalaması ünlü bir bölümleme yöntemidir. Nesneler, k a priori seçilen K gruplarından birine ait olarak sınıflandırılır.
K-ortalama algoritmasında,
- Kümeler küreseldir: Bir kümedeki veri noktaları o kümenin etrafında merkezlenir
- Kümelerin varyansı/yayılımı benzerdir: Her veri noktası en yakın kümeye aittir
19) Veri Analisti için gereken temel becerilerin neler olduğundan bahsedin?
Bir veri bilimcisi aşağıdaki becerilere sahip olmalıdır:
- Veritabanı bilgisi
- Veritabanı Yönetimi
- Veri karıştırma
- sorgulama
- Veri işleme
- Akıllı Analytics
- Temel tanımlayıcı istatistikler
- Tahmine dayalı modelleme
- Gelişmiş analiz
- Büyük Veri Bilgisi
- Büyük veri analizi
- Yapılandırılmamış veri analizi
- Makine öğrenme
- Tanıtım yeteneği
- Veri goruntuleme
- İçgörü sunumu
- Rapor tasarımı
20) İşbirliğine dayalı filtrelemenin ne olduğunu açıklayın?
İşbirlikçi filtreleme, kullanıcı davranış verilerine dayalı bir öneri sistemi oluşturmaya yönelik basit bir algoritmadır. İşbirliğine dayalı filtrelemenin en önemli bileşenleri şunlardır: kullanıcılar- öğeler- ilgi alanı.
İşbirliğine dayalı filtrelemeye iyi bir örnek, çevrimiçi alışveriş sitelerinde tarama geçmişinize göre açılan "sizin için önerildi" gibi bir ifade görmenizdir.
21) Büyük Veride kullanılan araçların neler olduğunu açıklayınız?
Büyük Veride kullanılan araçlar şunları içerir:
- Hadoop'un
- kovan
- Domuz
- suyolu
- fil sürücüsü
- kepçe
22) KPI nedir, deney tasarımı ve 80/20 kuralı nedir açıklayınız?
KPI: Anahtar Performans Göstergesi anlamına gelir, iş sürecine ilişkin elektronik tablo, rapor veya grafiklerin herhangi bir kombinasyonundan oluşan bir metriktir.
Deney tasarımı: Verilerinizi bölmek, örneklemek ve istatistiksel analiz için bir veriyi ayarlamak için kullanılan ilk işlemdir.
80/20 kurallar: Bu, gelirinizin yüzde 80'inin müşterilerinizin yüzde 20'sinden geldiği anlamına gelir
23) Harita Azaltma nedir açıklayınız?
Harita-azaltma, büyük veri kümelerini işleyen, bunları alt kümelere ayıran, her bir alt kümeyi farklı bir sunucuda işleyen ve ardından her birinde elde edilen sonuçları harmanlayan bir çerçevedir.
24) Kümeleme nedir açıklayınız? Kümeleme algoritmalarının özellikleri nelerdir?
Kümeleme verilere uygulanan bir sınıflandırma yöntemidir. Kümeleme algoritması, bir veri kümesini doğal gruplara veya kümelere böler.
Kümeleme algoritmasının özellikleri şunlardır:
- Hiyerarşik veya düz
- tekrarlayan
- Sert ve yumuşak
- ayırıcı
25) Veri analistleri için yararlı olan istatistiksel yöntemlerden bazıları nelerdir?
Veri bilimci için yararlı olan istatistiksel yöntemler şunlardır:
- Bayes yöntemi
- Markov süreci
- Uzamsal ve küme süreçleri
- Sıra istatistikleri, yüzdelik dilim, aykırı değerlerin tespiti
- İmputasyon teknikleri vb.
- Simplex algoritması
- Matematiksel optimizasyon
26) Zaman serisi analizi nedir?
Zaman serisi analizi, frekans alanı ve zaman alanı olmak üzere iki alanda yapılabilir. Zaman serisi analizinde, belirli bir sürecin çıktısı, üstel düzeltme, log-doğrusal regresyon yöntemi vb. gibi çeşitli yöntemler yardımıyla önceki veriler analiz edilerek tahmin edilebilir.
27) Korelogram analizi nedir açıklayınız?
Korelogram analizi coğrafyada mekansal analizin yaygın şeklidir. Farklı bir mekansal ilişki için hesaplanan bir dizi tahmini otokorelasyon katsayısından oluşur. Ham veriler bireysel noktalardaki değerler yerine mesafe olarak ifade edildiğinde, mesafeye dayalı veriler için bir korelogram oluşturmak için kullanılabilir.
28) Hash tablosu nedir?
Hesaplamada karma tablosu, değerlerin anahtarlarının haritasıdır. Bu bir veri yapısı ilişkisel bir dizi uygulamak için kullanılır. Bir dizini bir dizine hesaplamak için bir karma işlevi kullanır. dizi İstenilen değerin alınabileceği slotların sayısı.
29) Karma tablo çarpışmaları nelerdir? Nasıl önlenir?
İki farklı anahtarın aynı değere hashlenmesi durumunda karma tablosu çarpışması meydana gelir. Dizideki aynı yuvada iki veri saklanamaz.
Karma tablo çarpışmasını önlemek için birçok teknik vardır; burada iki tanesini listeliyoruz:
- Ayrı Zincirleme:
Aynı yuvaya karma yapan birden fazla öğeyi depolamak için veri yapısını kullanır.
- Açık adresleme:
İkinci bir işlevi kullanarak diğer yuvaları arar ve bulunan ilk boş yuvada öğeyi saklar.
29) İsnat nedir açıklayınız? Farklı türdeki atama tekniklerini listeler misiniz?
Atama sırasında eksik verileri değiştirilmiş değerlerle değiştiririz. Atama tekniklerinin türleri şunlardır:
- Tek Tartışma
- Sıcak güverte ataması: Rastgele seçilen benzer bir kayıttan delikli kart yardımıyla eksik bir değerin atanması
- Soğuk güverte ataması: Sıcak güverte atamasıyla aynı şekilde çalışır, ancak daha gelişmiştir ve bağışçıları başka veri kümelerinden seçer.
- Ortalama atama: Diğer tüm durumlar için eksik değerin bu değişkenin ortalamasıyla değiştirilmesini içerir.
- Regresyon ataması: Eksik değeri, bir değişkenin diğer değişkenlere dayalı olarak tahmin edilen değerleriyle değiştirmeyi içerir.
- Stokastik regresyon: Regresyon atamasıyla aynıdır, ancak ortalama regresyon varyansını regresyon atamasına ekler
- Çoklu İfade
- Tek atıftan farklı olarak, çoklu atıf, değerleri birden çok kez tahmin eder
30) Hangi isnat yöntemi daha uygundur?
Tek atıf yaygın olarak kullanılmasına rağmen, rastgele eksik verilerin yarattığı belirsizliği yansıtmaz. Bu nedenle, verilerin rastgele kaybolması durumunda çoklu atama, tekli atamaya göre daha uygundur.
31) N-gram nedir açıklayınız?
N-gram:
Bir n-gram, belirli bir metin veya konuşma dizisindeki n öğenin bitişik bir dizisidir. Bu tür bir dizideki bir sonraki öğeyi (n-1) şeklinde tahmin etmeye yönelik bir tür olasılıksal dil modelidir.
32) İyi bir veri modelinin kriterlerinin neler olduğunu açıklayınız?
İyi bir veri modelinin kriterleri şunları içerir:
- Kolayca tüketilebilir
- İyi bir modeldeki büyük veri değişiklikleri ölçeklenebilir olmalıdır
- Tahmin edilebilir performans sağlamalıdır
- İyi bir model gereksinimlerdeki değişikliklere uyum sağlayabilir
Bu mülakat soruları aynı zamanda yaşamınızda da yardımcı olacaktır.
Cevapların güzel bir derlemesi. Kısa ve güzel
6. sorunun cevabı sadece kısmen doğrudur… lojistik regresyon, bir veya daha fazla açıklayıcı/bağımsız değişkene dayanarak bir şeyin gerçekleşme olasılığını/ihtimalini belirlemekle ilgilenir. Geri kalan her şey harika! Teşekkürler.
Evet ben de aynısını düşünüyordum, bu cevabın sadece yarısı.
çok güzel, takdir ediyorum
Yazı için çok teşekkür ederim gerçekten çok işime yaradı
Güzel Özet ve çok faydalı
Teşekkürler bilgiler faydalı oldu
Çok iyi
Röportajın cevaplarıyla ilgileniyorum ve bunu posta yoluyla almak istiyorum ve bu cevaplar için gösterdiğiniz çaba için teşekkür ederim, bu beni aynı bırakmadı
İş için çok yararlı ve mükemmel bir rehber.
Okumaya değer!!! Teşekkür ederim
vay bu çok harika
Bir şeyler öğrenme fırsatı için minnettarım