Pero realmente, ¿qué es #BigData?
junio 10, 2014Ha pasado un año desde que publiqué un post sobre qué era para mi "Big Data", que fue la inauguración oficial de la sección de Big Data, que además ha dado pie al podcast Bigdateando y a muchas otras iniciativas como posts, participaciones en eventos (como OpenAnalitycs), etc y creo que ha llegado la hora de sentarme, reflexionar, sintetizar y contar de nuevo...realmente, ¿Qué es Big Data?
Mi trayectoria laboral
Durante este tiempo he trabajado en tres empresas (Stratebi, Paradigma Tecnológico y Stratio) y he conocido a muchos perfiles, tanto "desarrolladores", "arquitectos", "consultores", "CEO", "CTO", "Gente de Negocio" todo con la coletilla "Big Data". He participado en varios proyectos, unos encargados de gestionar grandes cantidades de datos, otros en visualización de datos, en I+D y en Documentación de Arquitecturas Big Data.Perfiles que he conocido
Los perfiles que se han incorporado al mundo Big Data son muy variados.· Por la parte de Ingeniería de Datos:
Para mi los que más importancia han cobrado han sido los de aquellas personas que estaban especializados en el mundo de los datos (bussiness intelligence, dataminning, etc) y que han sido capaces de aprender nuevas formas de hacer las cosas para dar solución a los problemas de tipo "Big Data". No es de extrañar que en las grandes corporaciones dediquen recursos de su departamento de BI a innovar y probar el compendio de tecnologías que rodean a Big Data. También he visto mucho perfil especializado en sistemas distribuidos, que han visto una buena oportunidad para especializarse en bases de datos NoSQL (aunque son pocos).
· Por la parte de Científico de Datos:
He conocido a varias personas que eran especialistas en tecnologías tipo R, Python (con librerías Machine Learning) etc que también han visto una gran oportunidad para explorar herramientas como Spark MLlib, Weka, rHadoop, SparkR, ... Tanto es así que me hice un curso en el que se veían Redes Neuronales, Redes Bayesianas, Machine Learning, Aprendizaje automático ...
· Perfiles Ingenieriles:
Muchas personas que son Arquitectos Java han visto una gran oportunidad para generar productos entorno a las tecnologías Big Data, participando en productos middleware como Stratio o Lambdoop. También gente que venía del mundo Cloud Computing, tipo AWS.
La verdad que no he conocido muchos entusiastas que quisieran aportar un extra, aunque si que es cierto que va aumentando el número de Meet Ups, conferencias, eventos, etc.
Pero realmente, ¿Qué es BigData?
Hay varios tipos de problemas que considero BigData:1. Problemas con Sistemas Heredados: requieren la realización de una ETL o una ELT con Hadoop o una tecnología Batch Processing similar con MapReduce (Spark, EMR,..). De estos he estado en un proyecto y son muy complejos, ya que si no posees a un especialista de BI en tu equipo que sepa como tratar datos, puede que la migración (la ingesta/obtención) se convierta en todo un infierno.
2. API´s: me encuentro en uno actualmente. Big Data es tener la posibilidad de tratar datos con todo tipo de estructuras y de todo tipo de fuentes, como bien os he dado la chapa en el blog. Pues cuando tienes que extraer información valiosa de esto, se necesita un perfil especializado en múltiples tecnologías, que se deben adecuar a cada proyecto. Por otra parte hay que almacenarlos a modo de histórico. Es decir, un Consultor Big Data Analítico con gran experiencia que lleve este tipo de proyectos.
3. Extracción de patrones, comportamiento...machine learning: problemas con la extracción de información de una plataforma BigData con el objetivo de, por ejemplo, saber que libro te gusta a ti en función de que libro me gusta a mi. Para esto hay tecnologías, algoritmos, etc que ayudan en esta tarea.
Visto esto, podríamos considerar Big Data a un conjunto de problemas relacionados con los datos, ya sea por incapacidad en la extracción de información en volumen, variedad o velocidad, que hasta hace unos años eran muy difíciles de implementar en el mundo real. Visto esto, decir que los que trabajamos con Big Data hoy en España realmente, somos una minoría. De hecho no vas a encontrar tutoriales en castellano en casi ningún lado de instalación de Apache Ambari, y es la punta del iceberg.
El futuro próximo
Se van a necesitar más perfiles especializados en este tipo de tecnologías. No hace falta crear una carrera "Ingeniero Big Data", simplemente hay que especializarse en datos:· Se necesita (y cada vez más), estadistas que manejen R|Mathlab perfectamente y que a su vez tengan elevados conocimientos informáticos para instalar distribuciones o colaborar en equipos de desarrollo en un lenguaje de programación dado (algo realmente complicado de encontrar).
· Por otra parte se necesitan especialistas en tecnologías orientados a ETLs & Visualización pero con tecnologías relacionadas con Big Data.
· Por último y no hay que olvidar, se van a necesitar personas especialistas en tratamiento (mantenimiento y desarrollo) de grandes volúmenes de datos a nivel de agregación mediante batch processing o de Real Time (Kafka, Storm...) (y las decenas de tecnologías de las que disponemos).
El año que viene haré otro posts y veremos como cambia el panorama. De momento bienvenid@ a aquel que desee adentrarse en este mundo, se lo va a pasar pipa si es un knowmad.
Si tenéis alguna duda, aquí estoy ;)
0 comentarios
Sé respetuoso/a, en este blog caben todo tipo de opiniones con respeto y serenidad.