Driver de DataStax para Conectar Spark a Cassandra (I) - Intro
julio 30, 2014El Suceso
Hace un par de semanas DataStax dio un golpe sobre la mesa presentando el Driver que conecta Cassandra con Spark. Este Driver es gratuito y Open Source, por lo que podemos utilizarlo como cualquier otro conector más en nuestras soluciones Big Data.
Esto que aparentemente puede parecer una noticia más, no lo es, ya que supone unir dos mundos que por separado son extremadamente geniales.
Los Implicados
Por un lado tenemos Cassandra, una base de datos NoSQL distribuida Peer To Peer, gratuita, Open Source y que en este blog le hicimos un hueco con una serie de Posts hace aproximadamente un año.
Por otro lado tenemos a Spark, edit por Sebastian Estevez:
"Spark, un sistema escalable de uso general para computación y procesamiento de datos con capacidades en memoria, aprendizaje automático, transmisión de datos continua (streaming), y gráfos."
"Spark, un sistema escalable de uso general para computación y procesamiento de datos con capacidades en memoria, aprendizaje automático, transmisión de datos continua (streaming), y gráfos."
De manera que esto nos permite realizar agregaciones en memoria con Spark en cientos de gigas almacenados en una base de datos distribuida, Cassandra.
El Impacto
Hay muchas empresas que han visto este potencial, y se han centrado en potenciar sus funcionalidades, como es el caso de DataStax, que tiene un Data Hub en versión Enterprise que ofrece unos extras a Cassandra.
Otras empresas, como DataBricks, son los padres de Spark y certifican a otras empresas a ser evangelizadoras de Spark.
Los Daños Colaterales
Y luego tenemos a decenas de empresas que utilizan ambas tecnologías (y otras más), las potencian, intercomunican y envuelven de otro tipo de aplicaciones. Esta última categoría de empresas son crean lo llamado Middlewares y que tienen por objetivo introducirse en empresas y permanecer en ellas a través de licencias, o a través de la utilización de su servicio. Las más famosas son Cloudera, Hortonworks, MapR, etc.
Muchas de estas empresas estaban a la caza de unir Spark y Cassandra, y algunas lo consiguieron con mucho esfuerzo y dedicación, y me consta de primera mano que grandes profesionales como Luca Rosellini CTO de Stratio y gran conocedor de Spark, pusieron mucha garra para lograrlo. No obstante, a veces no se puede competir cuando tus adversarios tienen tanto dinero (y conocimiento de primera mano).
La Importancia
Por todo esto, esta noticia aparentemente mundana, es extremadamente importante y para empresas que implantamos software libre, es una gran noticia.
En el próximo post veremos cómo funciona el conector. Es muy sencillo de probar en local, estoy pensando en hacer un screencast y mostrarlo funcionando :)
Hasta la próxima!
2 comentarios
Me gusta ver artículos bien escritos sobre software open source en castellano. Gracias.
ResponderEliminarUna sugerencia. Para describir Spark hay que hablar sobre mas que una plataforma en memoria. Que tal lo siguiente? "Spark, un sistema escalable de uso general para computación y procesamiento de datos con capacidades en memoria, aprendizaje automático, transmisión de datos continua (streaming), y gráfos."
Gracias Sebastian. Y si, estaría mejor adecuar la definición de Spark a tal y como comentas :)
EliminarLo edito!
Sé respetuoso/a, en este blog caben todo tipo de opiniones con respeto y serenidad.