BigData Spain 2013 - Día 2 :: Un repaso + Valoraciones y comentarios

noviembre 09, 2013

Vamos con el repaso al segundo día dentro del BigData Spain 2013.



El segundo día en Kinépolis fue tan bueno como el primero, la organización pasó inadvertida, cosa que creo que es lo mejor que les puede pasar, ya que nadie echó en falta nada, al revés, se fueron muy agradecidos y con ganas de más el año que viene, yo incluido.

A continuación un resumen de cada charla a las que asistí:

~ 9:00 - 9:40 - Breaking the limits of big data with Google BigQuery and the Google Cloud tools



Felipe Hoffa, Developer Relations engineer BigQuery team Google, habló sobre Google BigQuery (Arquitectura, pricing...) , la solución de Google para el tratamiento de grandes volúmenes de datos basada en Dremel. Habló sobre la experiencia de BigData Spain 2012 y comentó que quería centrarse en los nuevos avances en BigQuery. También comentó el coste y las nuevas líneas de investigación de la herramienta. Avanzó que iba a estar en el Workshop de Bitcoin para enseñarnos cómo se utiliza BigQuery, al cual asistí y os comentaré más tarde. Mi opinión sobre Google BigQuery es que es un tipo de solución muy conveniente cuando tenemos un dataset gigantes muy definido, que subimos a Google y al cual queremos hacer consultas SQL (muy similar) y obtener la información rápidamente. He echado de menos el tener la posibilidad de utilizar un API, para realizar nuestros programas personalizados y conectores entre distintas tecnologías, para trabajar en conjunto, pero creo que eso es algo que veremos más adelante, en otras ediciones de BigData Spain. Por último mi enhorabuena a Felipe H. un ponente super simpático.

~ 9:40 - 10:15 - Hive, Batch and Interactive SQL on Hadoop



Alan Gates, Co-Fundador de Hortonworks y ponente de excepción, habló sobre Hadoop y nos introdujo las nuevas mejoras de Hadoop 2.0 con YARN. La gran novedad fue Apache Tez, que creo que va a hacer replantear las estrategias comerciales en muchos grupos de tecnología. Tez es un sustituto a MapReduce cuando realizamos consultas con HIVE, y aumenta el rendimiento drásticamente en las consultas interactivas SQL en Hadoop. Puso algunos ejemplos pero uno de ellos fue en una consulta típica en la que lanzamos un Job que tarda 1400s con MapReduce, en Tez se quedaba en 7s. Realmente no lo vimos funcionar, pero promete mucho. También anunció que se podrán realizar inserciones/borrados/actualizaciones con HIVE, cosa que es muy necesaria para no tener que ir realizando cargas incrementales, necesitando cambiar el esquema en algunos casos. Fue quizás la ponencia más reveladora del día.

~ 10:15 - 10:45 - The Future is here with Apache Cassandra 2.0 - the NoSQL Database


Adam Hattrell, Senior Support Engineer DataStax, nos dio una visión global sobre la relación de Cassandra y DataStax. Habló de CQL y los cursores y los cambios que habrá en un futuro muy próximo en el API de Datastax. Habló de los Triggers y que están trabajando en implementarlos, aunque todo el que haya utilizado el API de Datastax ve que no hay apenas nada de documentación sobre esto mismo. Datastax Cassandra además se hace muy complicado de entender, instalar, configurar y publicar en comparación a otras herramientas como MongoDB y eso que tienen formación online gratuita. Quizás una buena documentación en el API con ejemplos explícitos y una máquina virtual para descargar con un tutorial guiado haría entender mejor todo. 

~11:30 - 12:30 - Mesa Redonda


Oscar Méndez co-fundador de Stratio & Paradigma Tecnológico, junto a Chris Marshall especialista en Servicios Financieros en IBM comentaron el panorama de la situación de las empresas en BigData en la actualidad. Respondieron a los tweets que público iba planteando en tiempo real y fue muy interesante ver como todos estamos alineándonos en la misma dirección pero en distintos sentidos, es decir, vemos que hay una necesidad en el mercado (dirección), en la incapacidad que tienen para procesar todos los datos que les llegan de sus usuarios y que hay muchas soluciones que ofrecen lo mismo (sentido). 

~ 12:30 - 12:45 - Break

Un descanso y asimilando las dosis de Alan Gates, comentando Google BigQuery con los compañeros y disfrutando del catering, que como en el día anterior fue genial.

~ 12:45 - 13:30 - Ad Networks analytics using Hadoop and Splout SQL


Iván de Prado, CEO de Datasalt, habló sobre su experiencia con el análisis de grandes volúmenes de datos en el negocio de Editores y Anunciantes en el mundo Web. Para tratar la problemática del análisis interactivo de grandes volúmenes de datos entre las interacciones Editor/Anunciante han creado una tecnología híbrida formada por Hadoop (almacenamiento y procesamiento de datos) y Splout SQL (invención de Datasalt para crear vistas de los datos de Hadoop, donde escala por el particionado de los datos). Nos enseñó todo el sistema, la arquitectura y nos animó a usar la herramienta Splout SQL, la cual sin duda voy a trastear en mi tiempo libre y quizás caiga algún post. Esta fue una de las que más me gustó a nivel personal y que más ganas tenía de ver, por la curiosidad que me despertaba el cómo un equipo se enfrenta a problemas reales y cómo somos capaces de inventar nuevas tecnologías donde no existe nada. Mi enhorabuena al equipo Datasalt.

~14:30 - 15:15 - Workshop - BigQuery over a BitCoin dataset


Alberto Toribio (Data Scientist experto en Bitcoin) y Felipe Hoffa nos hicieron una demo de utilización de los datos de Bitcoin de la web oficial de blockchain con la herramienta de análisis de grandes volúmenes de datos Google BigQuery. Por un lado Alberto nos enseñó características de Bitcoin muy interesantes y por otro Felipe realizó consultas en el dataset de Bitcoin con todos nosotros. Algunas consultas bastante interesantes si inviertes en Bitcoin, pero las verás en el video que suba la organización en un futuro. Muy chula y divertida.

~ 15:15 - 16:30 - Workshop - Hadoop + R


Carlos Gil Bellosta, fundador de Datanalytics nos hizo un resumen de Hadoop, un resumen de R y una introducción a Rhadooop, una plataforma/aplicación que une ambos conceptos. Gracias a que subió una máquina virtual que nos pudimos bajar y llevar preparada, realizamos todos a la vez operaciones en R y vimos como se lanzaban los MapReduce. Fue interesante ver como los estadísticos utilizan Hadoop de esta manera tan peculiar y que a ellos les vale, pero que en realidad parece tener un bajo rendimiento respecto a otras tecnologías. Aún así fue un Workshop muy ameno y Carlos nos hizo sonreir más de dos veces sobre su peculiar análisis de la relación entre los estadistas y la informática.

Y aquí se cerró BigData Spain 2013. Mi agradecimiento a Ruben Martinez como organizador y todo el equipo de BigData Spain, a Paradigma Tecnológico y a los partners por facilitarnos la presencia de tantos Cracks del mundo BigData, y sobre todo con ese cariño hacia el público. Gracias.


Ya estoy esperando el BigData Spain 2014. Nos veremos allí!

You Might Also Like

0 comentarios

Sé respetuoso/a, en este blog caben todo tipo de opiniones con respeto y serenidad.

Contact Form :: (」゜ロ゜)」