Driver de DataStax para Conectar Spark a Cassandra (II) - Presentación
septiembre 30, 2014
Eh aquí otro post más hablando sobre big data. Os dejo aquí las traspas de la charla que di sobre el conector de DataStax que une Apache Spark con Apache Cassandra en el último Cassandra Madrid Meet Up, para que las tengáis a mano. Antes voy a explirar un poco que es, para el que entre en el post no se pierda mucho. Cualquier duda, comentadme.
¿Qué es?
DataStax es la empresa que está detrás de una distribución vitaminada de Apache Cassandra. Aporta nuevas funcionalidades y además tiene una versión enterprise, lista para ser instalada en producción.
DataStax tiene múltiples proyectos y este es otro más de ellos. Este proyecto es un conector que une Apache Spark con Apache Cassandra y es una pieza clave en la industria para realizar procesamiento de grandes volúmenes de datos.
Tenemos tres componentes en juego:
Apache Spark, del cual podéis encontrar una guía muy nutritiva aquí.
Apache Cassandra, que también tenéis otra guía introductoria bastante interesante aquí.
Conector de DataStax de Apache Spark con Apache Cassandra, que podéis encontrar aquí.
El conector nos permite cargar tablas de Cassandra en RDDS de Spark, lo que nos da acceso a procesamiento muy veloz de grandes volúmenes de datos.
Requisitos - Instalación
Para instalarlo solo hay que clonarse el repo y realizar una compilación. Recogeremos el JAR y lo instalaremos en el classpath de Spark y en el proyecto Java/Scala que estemos utilizando. También podemos utilizarlo en el Spark-Shell, para realizar análisis interactivo.
Requisitos - Configuración
Vamos a trabajar con el Spark-Shell, y la configuración que debemos tener es:
· Apache Spark 1.0.0
· Apache Cassandra 2.0.4
· Muchas librerías que indico en la presentación.
· El conector compilado.
Traspas de SlideShare
Consejos (son gratis!)
· Cuidado con el contexto de Spark-Shell, reiniciadlo con el conector bien ubicado en tu classpath de Spark.
· Tened siempre un Worker cerca de un Nodo de Spark físicamente, en un mismo server.
· Programar en Scala, ya que facilita mucho la vida.
0 comentarios
Sé respetuoso/a, en este blog caben todo tipo de opiniones con respeto y serenidad.