Curso de #IngenieríadeDatos y #BigData en la #RAING - Primera Sesión
marzo 16, 2014Buenas compañeros digitales. Estoy asistiendo a un curso sobre Ingeniería de Datos, BigData que se imparte en la Real Academia de Ingeniería.
A mi me gusta crear contenidos de calidad, si bien es cierto que ando en mejora continua. Creo que gracias a este curso, voy a ser capaz de transmitir con mayor acierto todo esto de "los datos".
Sin entretenerme más comenzamos con un resumen del primer día:
Primera mitad de la Mañana - David Ríos - Introducción al curso
David Ríos ha sido profesor mío en el Máster de Sistemas de Información y nos habló de este curso, recomendándonos su asistencia si queríamos saber más sobre la actualidad y futuro en cuanto a los #datos. La sesión empezó hablando sobre #BigData y las distintas definiciones que andan pululando alrededor del planeta. Vimos de nuevo la mítica presentación de Dan Ariely sobre la relación metafórica entre el BigData y el sexo entre adolescentes. Nos contó que era para el lo más importante en un proyecto de datos, que hacía que hablásemos de el como #BigData y nos puso muchísimos ejemplos de proyectos en los que ha participado, haciéndonos un resumen y contándonos alguna batallita muy interesante.Nos habló de lo importante que se está volviendo para las grandes empresas la predicción en tiempo real. Nos contó que durante el curso veríamos algunas técnicas y algoritmos que nos ayudarían en nuestros proyectos desde Redes Neuronales, Aprendizaje Basado en Reglas de Negocio hasta Redes Bayesianas.
Comentó los diferentes perfiles y etapas que podemos encontrar en los nuevos proyectos relacionados con datos y destacó la futura gran demanda de Ingenieros de Datos y Analistas de Datos.
Segunda mitad de la Mañana - Felipe Ortega - Procesamiento de datos: Infraestructura
Felipe es un gran experimentado en datos. Lleva muchísimos años tratando de gestionar grandes volúmenes de datos y a través de la charla que nos dió intentó transmitirnos su experiencia vital, nos dió consejos, y nos ofreció herramientas y pistas para no ahogarnos en mitad del #mardedatosRepasó las distintas etapas que suele haber en proyectos #BigData (que para muchos profesionales no deja de ser #DataMining utilizando nuevas tecnologías) y dió muchísima importancia a tres cosas:
1- El equipo: debe haber personas de distintos perfiles:
· Una persona de negocio: encargada de saber todo lo que tiene que ver sobre el área de negocio en el que se van a tratar los datos. Deben estar involucradas desde el principio hasta el final del proyecto y son una pieza fundamental, de manera que si estamos realizando un proyecto para un comercio de venta de neumáticos, debe haber una persona especializada en la gestión de ventas de neumáticos.
2- La obtención de los datos: como en todo proyecto de Data Mining, los datos son lo más importante. La limpieza (que no significa eliminar los datos erróneos, sino ver por qué están mal y arreglarlos) y el tratamiento de los datos consume hasta el 80% de un proyecto. Si ha esto le sumamos el componente tecnológico que tienen los proyectos #BigData , estamos ante proyectos que si se estiman mal en su inicio, pueden llevarnos a la ruina.
3- Replicabilidad: si estamos en entornos académicos, destacó la importancia de poder replicar las investigaciones. De nada vale hacer un proyecto genial, si luego no se puede utilizar en el Mundo Real, ya sea porque los datos tengan NDA o mil motivos más. Si vamos a publicar un paper, que sea 100% replicable.
También habló sobre Hadoop y su ecosistema (Pig, Hive, Hbase, Mahout), Spark, Shark, Cassandra, etc. y de sus pros, contras y cómo Spark va a ir ganando terreno en los próximos años frente a Hadoop.
Una charla excelente, de la que me he ido con unas cuantas ideas para crear posts en el futuro.
Por la tarde - Daniel Borrajo - Aprendizaje de Reglas de Negocio
Daniel Borrajo, profesor de la Universidad Carlos III de Madrid, nos inició al mundo del aprendizaje automático basado en reglas de negocio. La sesión fue muy práctica, proponiéndonos ejemplos para entender bien los distintos algoritmos. Comenzó contándonos que era "el aprendizaje basado en reglas de negocio" y por qué era tan importante para extraer información en las empresas y sus líneas de negocio.Repasamos algunos algoritmos de aprendizaje, como el ID3 (y su problemática con el overfitting) y dedicó casi toda la tarde a hablarnos de algoritmos clasificadores capaces de ser entrenados.
Destacó que las redes neuronales para el aprendizaje automático están muy bien, pero que realmente su output es ilegible. Piensa que cuando estamos en negocio, lo mejor es comunicarnos en su propio idioma y nos recomendó utilizar WEKA (para la utilización de los algoritmos vistos en clase) y Prologic (para utilizar lógica que se adapte a nuestros casos de uso).
Me gustó mucho su clase y aún así, nos quedamos sin ver otros aspectos muy interesantes como el Modelado de Usuario, que consiste en sustituir a humanos por programas de aprendizaje automático (hay casos de intentona...y creo que los tiros en los próximos años van a ir por ahí).
Y terminó el curso. Ha sido un resumen de las ideas con las que me fui a dormir ese día, pero hay muchísimo más material, tanto que voy a necesitar estudiarlo con detenimiento en las próximas semanas.
Os iré contando, os espero en el próximo ;)!
0 comentarios
Sé respetuoso/a, en este blog caben todo tipo de opiniones con respeto y serenidad.