Aunque la ciencia de datos es un campo en rápida evolución, la cantidad de buscadores de empleo que compiten parece crecer exponencialmente cada año. Por lo tanto, a pesar de que la demanda de científicos de datos calificados es alta, encontrar trabajo en este campo sigue siendo extremadamente difícil. Para conseguir un trabajo, debe sobresalir entre cientos, si no miles, de otros solicitantes.
Como especialista en datos, debe tener una cartera sólida que demuestre claramente sus habilidades técnicas y sus habilidades blandas. Lo más importante es que su cartera debe demostrar que desea aprender.
4 tipos de proyectos de ciencia de datos que necesita en su cartera
- Limpieza de datos
- Análisis de datos de investigación
- Visualización de datos
- Aprendizaje automático
El término «ciencia de datos» cubre muchos temas, incluidas todas las ramas del aprendizaje automático, la versión informática, la inteligencia artificial y el procesamiento del lenguaje natural.
A pesar de la variedad de subdisciplinas, para demostrar su valía como candidato, solo necesita demostrar sus habilidades en las competencias básicas de la ciencia de datos. Aquí hay cuatro proyectos que lo diferenciarán de la multitud y lo ayudarán a conseguir el trabajo de sus sueños.
Limpieza de datos
Como científico de datos, es probable que dedique alrededor del 80 por ciento de su tiempo a limpiar datos. No puede construir un modelo confiable efectivo en un conjunto de datos desorganizado.
A medida que borra sus datos, es posible que necesite horas de investigación para determinar el propósito de cada columna en el conjunto de datos. A veces, después de horas, e incluso días, de limpieza, descubre que el conjunto de datos que está analizando no es realmente lo que está tratando de lograr.
Entonces tienes que empezar el proceso de nuevo.
Borrar datos puede ser una tarea desagradable y difícil. Sin embargo, esta es una parte integral de cualquier trabajo en el campo de la ciencia de datos. Para hacerlo menos complejo (y más eficiente), necesita práctica y existen conjuntos de datos que pueden ayudar.
Si está buscando un buen candidato para proyectos de limpieza de datos, debe asegurarse de que el conjunto de datos:
-
se extiende a varios archivos.
-
tiene muchos matices, valores cero y muchos enfoques posibles para la limpieza.
-
la comprensión completa requiere una cantidad considerable de investigación.
-
debe estar lo más cerca posible de la aplicación real.
A menudo podemos encontrar buenos conjuntos de datos para limpiar (conjuntos desordenados, como los llamo) en sitios web que recopilan y combinan conjuntos de datos. Dichos sitios web recopilan datos de varias fuentes sin ordenarlos, lo que los convierte en excelentes candidatos para proyectos de limpieza.
Dónde encontrar conjuntos de datos
- mundo.de.datos
- datos.gov
- Conjuntos de datos de Reddit
Análisis de datos de investigación
Una vez que sus datos estén limpios y organizados, deberá realizar una encuesta de datos (EDA), uno de los pasos importantes en cualquier proyecto de ciencia de datos. Hay muchos beneficios al ejecutar una EDA, que incluyen:
-
Maximice el análisis de conjuntos de datos
-
Identificación de patrones básicos y estructura.
-
Retiro de información importante
-
Detección de anomalías
Hay muchas técnicas que podemos seguir para un EDA efectivo, y la mayoría de estos métodos son gráficos porque es más fácil detectar patrones y anomalías en los datos cuando presentamos el conjunto visualmente. Las técnicas gráficas específicas que usamos en las tareas de EDA son simples. Ejemplo:
-
Construcción de datos fuente para obtener información inicial
-
Construcción de estadísticas simples a partir de datos sin procesar, como gráficos de medias y desviaciones estándar
-
Enfoque el análisis en secciones específicas de datos para obtener mejores resultados
Hay muchas fuentes donde puede aprender los conceptos básicos de EDA y desarrollar la intuición para investigar y encontrar patrones en sus datos; uno de mis cursos favoritos sobre el tema es el que ofrece la Universidad Johns Hopkins en Coursera.
Visualización de datos
Para sobresalir, debe ser un buen narrador, y una de las habilidades que todo científico de datos debe desarrollar es la capacidad de contar una historia convincente basada en sus propios datos. Cuando crea un proyecto de ciencia de datos, a menudo intenta encontrar información que mejore o perfeccione los datos de alguna manera. En la mayoría de los casos, deberá informar sus hallazgos en la universidad o en el negocio.
La mejor forma de contar una historia es imaginándola.
Hay muchos conjuntos de datos públicos que puede usar para practicar la visualización de datos, los tableros y la narración de historias con sus datos. Algunos de mis favoritos son: FiveThirtyEight, Google Dataset Search, Data is Plural y, por supuesto, no podemos hablar de conjuntos de datos sin mencionar a Kaggle.
Aprendizaje automático
Una de las cosas que puede aumentar o disminuir sus posibilidades de obtener un trabajo en ciencia de datos es la fluidez en el aprendizaje automático. A veces, cuando los recién llegados se unen a la industria, tienden a perderse los conceptos básicos y pasan directamente a conceptos y palabras de moda más avanzados.
Antes de sumergirse en los conceptos avanzados del aprendizaje automático, debe asegurarse de haber construido una base sólida con los conceptos básicos. Mejorar los conceptos básicos no solo fortalecerá su base de habilidades, sino que también le brindará el conocimiento que necesita para dominar rápida y fácilmente cualquier concepto avanzado.
Asegúrese de tener proyectos que cubran todos los aspectos básicos del aprendizaje automático, como la regresión (lineal, logística, etc.), algoritmos de clasificación y agrupamiento. Algunos de mis cursos básicos de aprendizaje automático favoritos son la sección de conceptos básicos de aprendizaje automático en el Libro de aprendizaje profundo y el curso de aprendizaje automático de CodeAcademy.
Aquí hay algunas ideas simples de proyectos de aprendizaje automático que pueden tener un impacto positivo en su cartera:
-
Pronóstico de préstamos utilizando un conjunto de datos de pronóstico de préstamos
-
Pronóstico del precio de la vivienda utilizando el conjunto de datos de pronóstico del precio de la vivienda
-
Clasificación de los géneros musicales.
-
Pronóstico de personalidad utilizando un conjunto de datos de pronóstico de personalidad.
-
Reconocimiento de escritura a mano
-
Convertir voz a texto o viceversa
Comida para llevar
Encontrar un buen trabajo en ciencia de datos puede ser bastante difícil debido a la gran cantidad de solicitantes y la gran cantidad de personas interesadas en el campo. Para destacar entre la multitud, su cartera debe demostrar que puede aprender, implementar y adaptarse fácilmente a nuevos modelos y algoritmos.