Las 30 principales preguntas y respuestas de entrevistas de analistas de datos (2024)

Aquí hay preguntas y respuestas de la entrevista de Data Analyst para principiantes y candidatos experimentados en análisis de datos para obtener el trabajo de sus sueños.

Descarga gratuita de PDF: Preguntas de la entrevista para analistas de datos

1) Mencione ¿cuál es la responsabilidad de un analista de datos?

La responsabilidad de un analista de datos incluye,

  • Proporcionar apoyo a todos los análisis de datos y coordinar con los clientes y el personal.
  • Resolver problemas relacionados con el negocio para clientes y realizar auditoría en datos
  • Analice los resultados e interprete los datos utilizando técnicas estadísticas y proporcione informes continuos.
  • Priorizar las necesidades comerciales y trabajar en estrecha colaboración con las necesidades de gestión e información.
  • Identificar nuevos procesos o áreas para oportunidades de mejora
  • Analizar, identificar e interpretar tendencias o patrones en conjuntos de datos complejos
  • Adquiera datos de fuentes de datos primarias o secundarias y mantenga bases de datos / sistemas de datos
  • Filtrar y “limpiar” datos y revisar informes informáticos
  • Determinar indicadores de rendimiento para localizar y corregir problemas de código.
  • Asegurar la base de datos desarrollando un sistema de acceso determinando el nivel de acceso del usuario

2) ¿Qué se requiere para convertirse en analista de datos?

Para convertirse en un analista de datos,

  • Conocimiento sólido en paquetes de informes (Business Objects), lenguaje de programación (XML, Javascript o marcos ETL), bases de datos (SQL, SQLito, etc.)
  • Fuertes habilidades con la capacidad de analizar, organizar, recopilar y difundir big data con precisión.
  • Conocimientos técnicos en diseño de bases de datos, modelos de datos, minería de datos y técnicas de segmentación
  • Sólidos conocimientos sobre paquetes estadísticos para analizar grandes conjuntos de datos (SAS, Excel, SPSS, etc)


3) Mencione cuáles son los diversos pasos en un proyecto de análisis.

Varios pasos en un proyecto de análisis incluyen

  • Definición del problema
  • Exploración de datos
  • Preparación de datos
  • Modelado
  • Validación de datos
  • Implementación y seguimiento

4) Mencione ¿qué es la limpieza de datos?

La limpieza de datos, también conocida como limpieza de datos, trata de identificar y eliminar errores e inconsistencias de los datos para mejorar la calidad de los datos.


5) ¿Enumere algunas de las mejores prácticas para la limpieza de datos?

Algunas de las mejores prácticas para la limpieza de datos incluyen,

  • Ordenar datos por diferentes atributos
  • Para grandes conjuntos de datos, límpielos paso a paso y mejore los datos con cada paso hasta que logre una buena calidad de datos.
  • Para conjuntos de datos grandes, divídalos en datos pequeños. Trabajar con menos datos aumentará su velocidad de iteración
  • Para manejar la tarea de limpieza común, cree un conjunto de funciones/herramientas/scripts de utilidad. Puede incluir la reasignación de valores en función de un archivo CSV o una base de datos SQL o la búsqueda y el reemplazo de expresiones regulares, eliminando todos los valores que no coinciden con una expresión regular.
  • Si tiene un problema con la limpieza de los datos, ordénelos por frecuencia estimada y ataque los problemas más comunes
  • Analice las estadísticas de resumen para cada columna (desviación estándar, media, número de valores faltantes)
  • Realice un seguimiento de cada operación de limpieza de fecha, para que pueda modificar los cambios o eliminar operaciones si es necesario
Preguntas de la entrevista del analista de datos
Preguntas de la entrevista del analista de datos

6) Explique qué es logístico ¿regresión?

La regresión logística es un método estadístico para examinar un conjunto de datos en el que hay una o más variables independientes que definen un resultado.


7) ¿Lista de algunas de las mejores herramientas que pueden ser útiles para el análisis de datos?

Las siguientes son las mejores herramientas de análisis de datos

  • Cuadro
  • Minero rápido
  • AbrirRefinar
  • KNIME
  • Operadores de búsqueda de Google
  • Solver
  • NodeXL
  • io
  • Wolframio Alfa
  • Tablas de fusión de Google

8) Mencione cuál es la diferencia entre la minería de datos y el perfilado de datos.

La diferencia entre la minería de datos y la creación de perfiles de datos es que

Perfilado de datos: Su objetivo es el análisis de instancias de atributos individuales. Brinda información sobre varios atributos como rango de valores, valor discreto y su frecuencia, ocurrencia de valores nulos, tipo de datos, longitud, etc.

Procesamiento de datos: Se enfoca en análisis de conglomerados, detección de registros inusuales, dependencias, descubrimiento de secuencias, mantenimiento de relaciones entre varios atributos, etc.

ID-100353945


9) Enumere algunos problemas comunes que enfrenta el analista de datos.

Algunos de los problemas comunes que enfrentan los analistas de datos son

  • Errores ortográficos comunes
  • Entradas duplicadas
  • Valores faltantes
  • valores ilegales
  • Representaciones de valores variables
  • Identificación de datos superpuestos

10) ¿Mencione el nombre del marco desarrollado por Apache para procesar grandes conjuntos de datos para una aplicación en un entorno informático distribuido?

Hadoop y MapReduce es el marco de programación desarrollado por Apache para procesar grandes conjuntos de datos para una aplicación en un entorno informático distribuido.


11) Mencione cuáles son los patrones faltantes que generalmente se observan.

Los patrones faltantes que generalmente se observan son

  • Falta completamente al azar
  • Falta al azar
  • Falta eso depende del valor faltante en sí
  • Falta eso depende de la variable de entrada no observada

12) Explique ¿Qué es el método de imputación KNN?

En la imputación KNN, los valores de atributo que faltan se imputan utilizando el valor de atributo que es más similar al atributo cuyos valores faltan. Mediante el uso de una función de distancia, se determina la similitud de dos atributos.


3) Mencione cuáles son los métodos de validación de datos utilizados por el analista de datos.

Por lo general, los métodos utilizados por el analista de datos para la validación de datos son

  • Cribado de datos
  • Verificación de datos

14) Explique qué se debe hacer con los datos sospechosos o faltantes.

  • Preparar un informe de validación que proporcione información de todos los datos sospechosos. Debe dar información como los criterios de validación que falló y la fecha y hora de ocurrencia
  • El personal experimentado debe examinar los datos sospechosos para determinar su aceptabilidad.
  • Los datos no válidos deben asignarse y reemplazarse con un código de validación
  • Para trabajar con los datos faltantes, utilice la mejor estrategia de análisis, como el método de eliminación, los métodos de imputación única, los métodos basados ​​en modelos, etc.

15) ¿Mencione cómo tratar los problemas de fuentes múltiples?

Para hacer frente a los problemas de múltiples fuentes,

  • Reestructuración de esquemas para lograr una integración de esquema
  • Identifique registros similares y combínelos en un solo registro que contenga todos los atributos relevantes sin redundancia

16) Explique qué es un valor atípico.

El valor atípico es un término comúnmente utilizado por los analistas para referirse a un valor que parece lejano y diverge de un patrón general en una muestra. Hay dos tipos de valores atípicos

  • Univariante
  • Multivariable

17) Explique qué es el algoritmo de agrupamiento jerárquico.

El algoritmo de agrupamiento jerárquico combina y divide grupos existentes, creando una estructura jerárquica que muestra el orden en que los grupos se dividen o fusionan.


18) Explique qué es el algoritmo K-mean.

K mean es un famoso método de partición. Los objetos se clasifican como pertenecientes a uno de los K grupos, k se eligen a priori.

En el algoritmo K-mean,

  • Los grupos son esféricos: los puntos de datos en un grupo están centrados alrededor de ese grupo
  • La varianza/difusión de los conglomerados es similar: cada punto de datos pertenece al conglomerado más cercano

19) Mencione cuáles son las habilidades clave requeridas para Data Analyst.

Un científico de datos debe tener las siguientes habilidades

  • conocimiento de la base de datos
  • Gestión de base de datos
  • Combinación de datos
  • Consulta
  • Manipulación de datos
  • Análisis Predictivo
  • Estadísticas descriptivas básicas
  • Modelado predictivo
  • Análisis avanzado
  • Conocimiento de grandes datos
  • Big Data Analytics
  • Análisis de datos no estructurados
  • Aprendizaje automático
  • Habilidad de presentacion
  • Visualización de datos
  • Presentación de información
  • Diseño de informes

20) Explique qué es el filtrado colaborativo.

El filtrado colaborativo es un algoritmo simple para crear un sistema de recomendación basado en datos de comportamiento del usuario. Los componentes más importantes del filtrado colaborativo son usuarios- artículos- interés.

Un buen ejemplo de filtrado colaborativo es cuando ve una declaración como "recomendado para usted" en los sitios de compras en línea que aparece en función de su historial de navegación.


21) Explique ¿Cuáles son las herramientas que se utilizan en Big Data?

Las herramientas utilizadas en Big Data incluyen

  • Hadoop
  • Colmena
  • Cerdo
  • Canal de flujo
  • Cuidador de elefantes
  • sqoop

22) Explique ¿Qué es KPI, diseño de experimentos y regla 80/20?

KPI: Significa Indicador clave de rendimiento, es una métrica que consiste en cualquier combinación de hojas de cálculo, informes o gráficos sobre procesos comerciales.

Diseño de experimentos: Es el proceso inicial utilizado para dividir sus datos, muestrear y configurar datos para análisis estadístico.

Reglas 80/20: Significa que el 80 por ciento de tus ingresos proviene del 20 por ciento de tus clientes


23) Explique ¿Qué es Map Reduce?

Map-reduce es un marco para procesar grandes conjuntos de datos, dividiéndolos en subconjuntos, procesando cada subconjunto en un servidor diferente y luego combinando los resultados obtenidos en cada uno.


24) Explique ¿Qué es el agrupamiento? ¿Cuáles son las propiedades de los algoritmos de agrupamiento?

La agrupación en clústeres es un método de clasificación que se aplica a los datos. El algoritmo de agrupamiento divide un conjunto de datos en grupos naturales o clústeres.

Las propiedades para el algoritmo de agrupamiento son

  • Jerárquico o plano
  • Iterativo
  • Duro y blando
  • Disyuntivo

25) ¿Cuáles son algunos de los métodos estadísticos que son útiles para el analista de datos?

Los métodos estadísticos que son útiles para los científicos de datos son

  • método bayesiano
  • proceso de Markov
  • Procesos espaciales y de clúster
  • Estadísticas de clasificación, percentiles, detección de valores atípicos
  • Técnicas de imputación, etc.
  • Algoritmo simplex
  • Optimización matemática

26) ¿Qué es el análisis de series de tiempo?

El análisis de series temporales se puede realizar en dos dominios, el dominio de la frecuencia y el dominio del tiempo. En el análisis de series de tiempo, la salida de un proceso en particular se puede pronosticar analizando los datos anteriores con la ayuda de varios métodos, como el suavizado exponencial, el método de regresión log-lineal, etc.


27) Explique qué es el análisis de correlograma.

Un análisis de correlograma es la forma común de análisis espacial en geografía. Consiste en una serie de coeficientes de autocorrelación estimados calculados para una relación espacial diferente. Se puede usar para construir un correlograma para datos basados ​​en la distancia, cuando los datos sin procesar se expresan como distancia en lugar de valores en puntos individuales.


28) ¿Qué es una tabla hash?

En informática, una tabla hash es un mapa de claves a valores. Es un estructura de datos Se utiliza para implementar una matriz asociativa. Utiliza una función hash para calcular un índice en un matriz de ranuras, de las cuales se puede obtener el valor deseado.


29) ¿Qué son las colisiones de tablas hash? ¿Cómo se evita?

Una colisión de tablas hash ocurre cuando dos claves diferentes tienen el mismo valor. No se pueden almacenar dos datos en la misma ranura en la matriz.

Para evitar la colisión de tablas hash, existen muchas técnicas, aquí enumeramos dos

  • Encadenamiento separado:

Utiliza la estructura de datos para almacenar varios elementos que tienen un hash en la misma ranura.

  • Direccionamiento abierto:

Busca otras ranuras usando una segunda función y almacena el elemento en la primera ranura vacía que se encuentra


29) Explique ¿Qué es la imputación? ¿Enumere diferentes tipos de técnicas de imputación?

Durante la imputación, reemplazamos los datos faltantes con valores sustituidos. Los tipos de técnicas de imputación involucradas son

  • Imputación única
  • Imputación hot-deck: se imputa un valor faltante de un registro similar seleccionado al azar con la ayuda de una tarjeta perforada
  • Imputación de plataforma fría: funciona igual que la imputación de plataforma caliente, pero es más avanzada y selecciona donantes de otros conjuntos de datos.
  • Imputación media: implica reemplazar el valor faltante con la media de esa variable para todos los demás casos
  • Imputación de regresión: implica reemplazar el valor faltante con los valores predichos de una variable basada en otras variables
  • Regresión estocástica: es lo mismo que la imputación de regresión, pero agrega la varianza de regresión promedio a la imputación de regresión
  • Imputación Múltiple
  • A diferencia de la imputación única, la imputación múltiple estima los valores varias veces

30) ¿Qué método de imputación es más favorable?

Aunque la imputación única se usa ampliamente, no refleja la incertidumbre creada por la falta de datos al azar. Por lo tanto, la imputación múltiple es más favorable que la imputación simple en caso de que falten datos al azar.


31) Explique ¿Qué es n-grama?

N-grama:

Un n-grama es una secuencia contigua de n elementos de una secuencia dada de texto o habla. Es un tipo de modelo de lenguaje probabilístico para predecir el siguiente elemento en tal secuencia en forma de (n-1).


32) Explique cuál es el criterio para un buen modelo de datos.

Los criterios para un buen modelo de datos incluyen

  • Se puede consumir facilmente
  • Los grandes cambios de datos en un buen modelo deben ser escalables
  • Debe proporcionar un rendimiento predecible.
  • Un buen modelo puede adaptarse a los cambios en los requisitos.

Estas preguntas de la entrevista también te ayudarán en tu viva(orals)

Compartir

13 Comentarios

  1. Buena colección de respuestas. Corto y dulce

  2. La respuesta a la pregunta n.º 6 es solo parcialmente correcta... la regresión logística trata de determinar la probabilidad/posibilidades de que algo suceda en función de una o más variables explicativas/independientes. ¡Aunque todo lo demás es genial! Gracias.

    1. Sí, estaba pensando lo mismo, es solo la mitad de la respuesta.

  3. Avatar Esteban Odoi dice:

    muchas gracias por el articulo me ayudo mucho

  4. Avatar Recompensa munshishinga dice:

    Gracias la informacion fue util

  5. Avatar Wachemba Amuza dice:

    me interesan las respuestas de la entrevista y me gustaria recibirlas a mi correo y gracias por todo su esfuerzo por estas respuestas no me ha dejado igual

  6. Avatar Teferi Kanela dice:

    Muy útil y una excelente guía para los negocios.

  7. Avatar Grado de marca dice:

    Vale la pena leerlo!!! Gracias

  8. Avatar yusuf mohamed dice:

    Agradecido por la oportunidad de aprender algo.

Deje un comentario

Su dirección de correo electrónico no será publicada. Las areas obligatorias están marcadas como requeridas *