Data Scientist o Data Engineer

La industria tecnológica cambia constantemente a pasos agigantados, lo que conocíamos como la Ley de Moore ha dejado de existir y con ella muchas tecnologías. El remplazo no viene de la noche a la mañana requiere de mucho trabajo y esfuerzo coordinado por la ciencia y la tecnología. Todas aquellas personas que se han dedicado en la industria tecnológica saben que la competencia es igual de encarnizada que el desarrollo tecnológico y por lo tanto se les exige más. Es un deporte de alto rendimiento que premia a los más adaptados para el cambio.

Data Scientist

El Big Data, IoT, 5G, Machine Learning y Deep Learning han llegado a revolucionar las tecnologías típicas de manera instantánea y con ello surgen nuevos retos, sobre todo en el procesamiento de datos. Pero, ¿Qué tan preparados estamos?.

Hace algunos años en junio de 2006 para ser más exactos, se escribió un artículo: Data Scientist: The Sexiest Job of the 21st Century por Thomas H. Davenport y D.J. Patil en donde se comienza a escribir la historia de ser un Data Scientist. Para 2016 y 2017, Data Scientist fue categorizado como el “ #1 Best Job” en Estados Unidos de Norte América de acuerdo a Glassdoor y con el ello el aumento de la demanda de ciertas habilidades y aptitudes.

El perfil de Data Scientist debe cumplir ciertos skills o habilidades:

  • Las cuantitativas: Expertos en matemáticas y estadística.
  • Aptitud técnica: Programación y un fuerte conocimiento en TI.
  • Pensamiento crítico y escéptico: Examinar el trabajo de manera imparcial.
  • Curioso y creativo: Apasionado sobre los datos y encontrar diversas soluciones a problemas.
  • Colaborativo y debe saber comunicar: Saber articular los valores de negocio en un camino limpio y saber colaborar con otros grupos de trabajo.

Entre las herramientas más comunes de un Data Scientist encontramos: Python, RStudio, Anaconda, Scala, Stata, Jupyter, Spark, etc.

Estos son algunas características de un Data Scientist, pero ahora criticaremos un poco sobre el mito del “unicornio rosa”.  Se desconoce realmente donde comenzó, pero pienso que investigarlo no tiene sentido. Lo que nos quiere decir y lo que se interpretó de manera incorrecta es que una sola persona puede hacer todas las tareas para encontrar esa propuesta de valor a través de herramientas analíticas para resolver problemas reales de cualquier tipo. En realidad, esto no es así. En la industria tecnológica y como he mencionado arriba, el desarrollo acelerado sin medida por la actual era de la transformación digital nos invita y nos exige a que sean grupos grandes de trabajo y no solo un «unicornio  rosa» .

Los roles más comunes en un proyecto de analítica son:

Business user, Project Sponsor, Project manager, Business intelligence analyst, Database administrator (DBA), Data Scientist y finalmente:  Data Engineer. Cada uno con actividades y responsabilidades diferentes sobre el proyecto, pero que son coordinados para encontrar esa propuesta de valor. Es aquí en donde quiero darle mención al Data Engineer, un perfil que ha ido creciendo de igual o mayor manera que un Data Scientist.

El Data Engineer es el encargado de aplicar aquellas habilidades duras para asistir con la extracción de datos desde diferentes fuentes, transforman y preparan la ingesta de datos sobre un Sandbox, este proceso es conocido como ETL (Extract, Transform and Load).

Es quien realiza la infraestructura que será utilizada por el Data Scientist. Son desarrolladores de software, diseñan, construyen e integran los datos desde varias fuentes. Están constantemente activos en la etapa de preparación de los datos y esto implica más del 50% del ciclo de un proyecto de analítica .

Entre las herramientas más utilizadas por un Data Engineer están: Hadoop, MapReduce, YARN, HDFS, Pig, Hive, Data streaming, NoSql, Sql y la lista sigue, pero depende definitivamente del tipo de problema a resolver.

DS ( Data Scientist) & DE (Data Engineer).

Las descripciones de un Data Scientist y un Data Engineer pueden entenderse por igual, pero lo cierto es que son roles y responsabilidades diferentes y se complementan sobre el trabajo, incluso en salario han estado en una constante rivalidad, hoy en día el Data Scientist ocupa el tercer lugar y el Data Engineer el sexto lugar por Glassdoor.

Thomas H. Davenport, D.J. Patil. (2006). Data Scientist: The Sexiest Job of the 21st Century. 2020, de Harvad Business Review Sitio web: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century.

https://www.glassdoor.com/List/Best-Jobs-in-America-LST_KQ0,20.htm

Deja un comentario