30 Pertanyaan dan Jawaban Wawancara Analis Data Teratas (2024)

Berikut adalah pertanyaan dan jawaban wawancara Analis Data untuk kandidat analisis data baru dan berpengalaman untuk mendapatkan pekerjaan impian mereka.

Unduh PDF Gratis: Pertanyaan Wawancara Analis Data

1) Sebutkan apa tanggung jawab seorang analis data?

Tanggung jawab seorang analis data meliputi,

  • Memberikan dukungan untuk semua analisis data dan berkoordinasi dengan pelanggan dan staf
  • Selesaikan masalah terkait bisnis untuk klien dan kinerja Audit pada data
  • Analisis hasil dan tafsirkan data menggunakan teknik statistik dan berikan laporan berkelanjutan
  • Memprioritaskan kebutuhan bisnis dan bekerja sama dengan kebutuhan manajemen dan informasi
  • Identifikasi proses atau area baru untuk peluang perbaikan
  • Menganalisis, mengidentifikasi dan menafsirkan tren atau pola dalam kumpulan data yang kompleks
  • Memperoleh data dari sumber data primer atau sekunder dan memelihara database / sistem data
  • Filter dan “bersihkan” data, dan tinjau laporan komputer
  • Tentukan indikator kinerja untuk menemukan dan memperbaiki masalah kode
  • Mengamankan database dengan mengembangkan sistem akses dengan menentukan tingkat akses pengguna

2) Apa yang diperlukan untuk menjadi seorang analis data?

Untuk menjadi seorang analis data,

  • Pengetahuan yang kuat tentang paket pelaporan (Objek Bisnis), bahasa pemrograman (kerangka XML, Javascript, atau ETL), database (SQL, SQLitu, dll.)
  • Keterampilan yang kuat dengan kemampuan menganalisis, mengatur, mengumpulkan dan menyebarkan data besar dengan akurat
  • Pengetahuan teknis dalam desain database, model data, penambangan data dan teknik segmentasi
  • Pengetahuan yang kuat tentang paket statistik untuk menganalisis kumpulan data besar (SAS, Excel, SPSS, dll.)


3) Sebutkan apa saja langkah-langkah dalam proyek analitik?

Berbagai langkah dalam proyek analitik meliputi

  • Definisi masalah
  • Eksplorasi data
  • Persiapan data
  • Pemodelan
  • Validasi data
  • Implementasi dan pelacakan

4) Sebutkan apa itu pembersihan data?

Pembersihan data juga disebut sebagai pembersihan data, berkaitan dengan mengidentifikasi dan menghilangkan kesalahan dan inkonsistensi dari data untuk meningkatkan kualitas data.


5) Sebutkan beberapa praktik terbaik untuk pembersihan data?

Beberapa praktik terbaik untuk pembersihan data meliputi,

  • Urutkan data berdasarkan atribut yang berbeda
  • Untuk kumpulan data besar, bersihkan secara bertahap dan tingkatkan data di setiap langkah hingga Anda mencapai kualitas data yang baik
  • Untuk kumpulan data besar, bagilah menjadi data kecil. Bekerja dengan lebih sedikit data akan meningkatkan kecepatan iterasi Anda
  • Untuk menangani tugas pembersihan umum, buatlah serangkaian fungsi/alat/skrip utilitas. Ini mungkin termasuk, memetakan ulang nilai berdasarkan file CSV atau database SQL atau, pencarian dan penggantian regex, mengosongkan semua nilai yang tidak cocok dengan regex
  • Jika Anda mempunyai masalah dengan kebersihan data, urutkan berdasarkan perkiraan frekuensi dan atasi masalah yang paling umum
  • Analisis ringkasan statistik untuk setiap kolom (deviasi standar, mean, jumlah nilai yang hilang,)
  • Pantau setiap operasi pembersihan tanggal, sehingga Anda dapat mengubah perubahan atau menghapus operasi jika diperlukan
Pertanyaan Wawancara Analis Data
Pertanyaan Wawancara Analis Data

6) Jelaskan apa itu logistik regresi?

Regresi logistik adalah metode statistik untuk memeriksa kumpulan data yang di dalamnya terdapat satu atau lebih variabel independen yang menentukan suatu hasil.


7) Daftar beberapa alat terbaik yang berguna untuk analisis data?

Berikut adalah alat analisis data terbaik

  • Tablo
  • RapidMiner
  • Buka Perbaiki
  • PISAU
  • Operator Penelusuran Google
  • Solver
  • NodeXL
  • io
  • Wolfram Alpha
  • Tabel Google Fusion

8) Sebutkan apa perbedaan antara data mining dan data profiling?

Perbedaan antara penambangan data dan pembuatan profil data adalah itu

Pembuatan profil data: Ini menargetkan analisis contoh atribut individu. Ini memberikan informasi tentang berbagai atribut seperti rentang nilai, nilai diskrit dan frekuensinya, kemunculan nilai nol, tipe data, panjang, dll.

Penambangan data: Ini berfokus pada analisis cluster, deteksi catatan yang tidak biasa, ketergantungan, penemuan urutan, hubungan antara beberapa atribut, dll.

ID-100353945


9) Sebutkan beberapa masalah umum yang dihadapi oleh analis data?

Beberapa masalah umum yang dihadapi oleh analis data adalah

  • Salah eja yang umum
  • Entri duplikat
  • Nilai yang hilang
  • Nilai-nilai ilegal
  • Memvariasikan representasi nilai
  • Mengidentifikasi data yang tumpang tindih

10) Sebutkan nama kerangka kerja yang dikembangkan oleh Apache untuk memproses kumpulan data besar untuk suatu aplikasi dalam lingkungan komputasi terdistribusi?

Hadoop dan MapReduce adalah kerangka pemrograman yang dikembangkan oleh Apache untuk memproses kumpulan data besar untuk aplikasi dalam lingkungan komputasi terdistribusi.


11) Sebutkan pola hilang apa yang umumnya diamati?

Pola hilang yang umumnya diamati adalah

  • Hilang sepenuhnya secara acak
  • Hilang secara acak
  • Hilangnya itu tergantung dari nilai yang hilang itu sendiri
  • Hilangnya itu tergantung pada variabel input yang tidak teramati

12) Jelaskan apa yang dimaksud dengan metode imputasi KNN?

Pada imputasi KNN, nilai atribut yang hilang diperhitungkan dengan menggunakan nilai atribut yang paling mirip dengan atribut yang nilainya hilang. Dengan menggunakan fungsi jarak, kemiripan dua atribut dapat ditentukan.


3) Sebutkan metode validasi data apa yang digunakan oleh analis data?

Biasanya metode yang digunakan oleh analis data untuk validasi data adalah

  • Penyaringan data
  • Verifikasi data

14) Jelaskan apa yang harus dilakukan terhadap data yang dicurigai atau hilang?

  • Siapkan laporan validasi yang memberikan informasi tentang semua data yang dicurigai. Ini harus memberikan informasi seperti kriteria validasi bahwa gagal dan tanggal dan waktu terjadinya
  • Personil yang berpengalaman harus memeriksa data yang mencurigakan untuk menentukan penerimaannya
  • Data yang tidak valid harus ditetapkan dan diganti dengan kode validasi
  • Untuk mengatasi data yang hilang, gunakan strategi analisis terbaik seperti metode penghapusan, metode imputasi tunggal, metode berbasis model, dll.

15) Sebutkan cara mengatasi masalah multi-sumber?

Untuk mengatasi masalah multi-sumber,

  • Restrukturisasi skema untuk mencapai integrasi skema
  • Identifikasi catatan serupa dan gabungkan menjadi satu catatan yang berisi semua atribut yang relevan tanpa redundansi

16) Jelaskan apa itu Outlier?

Outlier adalah istilah yang umum digunakan oleh para analis untuk merujuk pada nilai yang tampak jauh dan menyimpang dari pola keseluruhan dalam suatu sampel. Ada dua jenis Outlier

  • Univariat
  • Multivarian

17) Jelaskan apa itu Algoritma Pengelompokan Hirarki?

Algoritme pengelompokan hierarki menggabungkan dan membagi grup yang ada, menciptakan struktur hierarki yang menampilkan urutan pembagian atau penggabungan grup.


18) Jelaskan apa itu Algoritma K-mean?

K mean adalah metode partisi yang terkenal. Objek diklasifikasikan sebagai milik salah satu kelompok K, k dipilih secara apriori.

Dalam algoritma K-mean,

  • Clusternya berbentuk bola: titik data dalam sebuah cluster berpusat di sekitar cluster tersebut
  • Varians/penyebaran cluster serupa: Setiap titik data termasuk dalam cluster terdekat

19) Sebutkan keterampilan utama apa yang dibutuhkan untuk Analis Data?

Seorang data scientist harus memiliki keterampilan berikut

  • Pengetahuan basis data
  • manajemen database
  • Pencampuran data
  • Menanyakan
  • Manipulasi data
  • Predictive Analytics
  • Statistik deskriptif dasar
  • Pemodelan prediktif
  • Analisis lanjutan
  • Pengetahuan Data Besar
  • Analitik data besar
  • Analisis data tidak terstruktur
  • Pembelajaran mesin
  • Keterampilan presentasi
  • Visualisasi data
  • Presentasi wawasan
  • Desain laporan

20) Jelaskan apa yang dimaksud dengan pemfilteran kolaboratif?

Pemfilteran kolaboratif adalah algoritma sederhana untuk membuat sistem rekomendasi berdasarkan data perilaku pengguna. Komponen terpenting dari pemfilteran kolaboratif adalah pengguna- item- minat.

Contoh pemfilteran kolaboratif yang baik adalah ketika Anda melihat pernyataan seperti “direkomendasikan untuk Anda” di situs belanja online yang muncul berdasarkan riwayat penjelajahan Anda.


21) Jelaskan alat apa saja yang digunakan dalam Big Data?

Alat yang digunakan dalam Big Data meliputi


22) Jelaskan apa itu KPI, desain eksperimen, dan aturan 80/20?

KPI: Merupakan singkatan dari Key Performance Indicator, yang merupakan metrik yang terdiri dari kombinasi spreadsheet, laporan, atau bagan tentang proses bisnis

Desain percobaan: Ini adalah proses awal yang digunakan untuk membagi data, mengambil sampel, dan menyiapkan data untuk analisis statistik

aturan 80/20: Artinya 80 persen pendapatan Anda berasal dari 20 persen klien Anda


23) Jelaskan apa itu Pengurangan Peta?

Pengurangan peta adalah kerangka kerja untuk memproses kumpulan data besar, membaginya menjadi beberapa subset, memproses setiap subset di server berbeda, dan kemudian memadukan hasil yang diperoleh pada masing-masing subset.


24) Jelaskan apa itu Clustering? Apa sajakah properti algoritma clustering?

Clustering adalah metode klasifikasi yang diterapkan pada data. Algoritma clustering membagi kumpulan data menjadi kelompok atau cluster alami.

Properti untuk algoritma clustering adalah

  • Hierarki atau datar
  • Berulang
  • Keras dan lembut
  • Yg memisahkan

25) Apa saja metode statistik yang berguna bagi analis data?

Metode statistik yang berguna bagi data scientist adalah

  • metode Bayesian
  • proses Markov
  • Proses spasial dan cluster
  • Statistik peringkat, persentil, deteksi outlier
  • Teknik imputasi, dll.
  • Algoritma simpleks
  • optimasi matematika

26) Apa yang dimaksud dengan analisis deret waktu?

Analisis deret waktu dapat dilakukan dalam dua domain, yaitu domain frekuensi dan domain waktu. Dalam analisis deret waktu, keluaran dari suatu proses tertentu dapat diperkirakan dengan menganalisis data sebelumnya dengan bantuan berbagai metode seperti pemulusan eksponensial, metode regresi log-linear, dll.


27) Jelaskan apa itu analisis korelogram?

Analisis korelogram adalah bentuk umum analisis spasial dalam geografi. Ini terdiri dari serangkaian perkiraan koefisien autokorelasi yang dihitung untuk hubungan spasial yang berbeda. Hal ini dapat digunakan untuk membuat korelogram untuk data berbasis jarak, ketika data mentah dinyatakan sebagai jarak, bukan nilai pada titik individual.


28) Apa itu tabel hash?

Dalam komputasi, tabel hash adalah peta kunci nilai. Ini adalah sebuah struktur data digunakan untuk mengimplementasikan array asosiatif. Ia menggunakan fungsi hash untuk menghitung indeks menjadi susunan slot, dari mana nilai yang diinginkan dapat diambil.


29) Apa yang dimaksud dengan tabrakan tabel hash? Bagaimana cara menghindarinya?

Tabrakan tabel hash terjadi ketika dua kunci berbeda melakukan hash ke nilai yang sama. Dua data tidak dapat disimpan dalam slot yang sama dalam array.

Untuk menghindari tabrakan tabel hash, ada banyak teknik, di sini kami mencantumkan dua teknik

  • Rantai Terpisah:

Ia menggunakan struktur data untuk menyimpan beberapa item yang di-hash ke slot yang sama.

  • Buka pengalamatan:

Ia mencari slot lain menggunakan fungsi kedua dan menyimpan item di slot kosong pertama yang ditemukan


29) Jelaskan apa yang dimaksud dengan imputasi? Sebutkan berbagai jenis teknik imputasi?

Selama imputasi, kami mengganti data yang hilang dengan nilai pengganti. Jenis teknik imputasi yang terlibat adalah

  • Imputasi Tunggal
  • Imputasi hot-deck: Nilai yang hilang diperhitungkan dari catatan serupa yang dipilih secara acak dengan bantuan kartu berlubang
  • Imputasi dek dingin: Cara kerjanya sama seperti imputasi dek panas, namun lebih canggih dan memilih donor dari kumpulan data lain
  • Imputasi rata-rata: Ini melibatkan penggantian nilai yang hilang dengan rata-rata variabel tersebut untuk semua kasus lainnya
  • Imputasi regresi: Ini melibatkan penggantian nilai yang hilang dengan nilai prediksi suatu variabel berdasarkan variabel lain
  • Regresi stokastik: Sama dengan imputasi regresi, namun menambahkan varian regresi rata-rata ke imputasi regresi
  • Imputasi Berganda
  • Tidak seperti imputasi tunggal, imputasi ganda memperkirakan nilai beberapa kali

30) Metode imputasi manakah yang lebih disukai?

Meskipun imputasi tunggal banyak digunakan, imputasi tunggal tidak mencerminkan ketidakpastian yang ditimbulkan oleh hilangnya data secara acak. Jadi, imputasi ganda lebih disukai daripada imputasi tunggal jika ada data yang hilang secara acak.


31) Jelaskan apa itu n-gram?

N-gram:

N-gram adalah rangkaian n item yang berdekatan dari rangkaian teks atau ucapan tertentu. Ini adalah jenis model bahasa probabilistik untuk memprediksi item berikutnya dalam urutan dalam bentuk a (n-1).


32) Jelaskan apa kriteria model data yang baik?

Kriteria model data yang baik antara lain

  • Itu dapat dengan mudah dikonsumsi
  • Perubahan data yang besar dalam model yang baik harus dapat diskalakan
  • Ini harus memberikan kinerja yang dapat diprediksi
  • Model yang baik dapat beradaptasi terhadap perubahan kebutuhan

Pertanyaan wawancara ini juga akan membantu dalam viva Anda (lisan)

Share

13 Komentar

  1. Avatar Ajay mengatakan:

    Kumpulan jawaban yang bagus. Pendek dan manis

  2. Avatar Mitch mengatakan:

    Jawaban atas pertanyaan #6 hanya sebagian benar… regresi logistik berkaitan dengan penentuan probabilitas/peluang terjadinya sesuatu berdasarkan satu atau lebih variabel penjelas/independen. Segala sesuatu yang lain bagus sekali! Terima kasih.

    1. Avatar Sneha mengatakan:

      Ya, saya juga memikirkan hal yang sama, itu hanya setengah dari jawabannya.

  3. Avatar Odoi Stephen mengatakan:

    Terima kasih banyak atas artikelnya, sangat membantu saya

  4. Avatar Deb mengatakan:

    Ringkasan yang bagus dan sangat membantu

  5. Avatar Hadiahi munshishinga mengatakan:

    Terima kasih informasinya bermanfaat

  6. Avatar Wachemba Amuza mengatakan:

    Saya tertarik dengan jawaban wawancara dan saya ingin menerimanya melalui surat saya dan terima kasih atas semua upaya Anda untuk jawaban ini, saya tidak merasa sama

  7. Avatar Teferi Kanela mengatakan:

    Sangat berguna dan panduan yang bagus untuk bisnis.

  8. Avatar tandai derajat mengatakan:

    Layak dibaca!!! Terima kasih

  9. Avatar Yusuf Muhammad mengatakan:

    Bersyukur atas kesempatan untuk mempelajari sesuatu

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai *