¿Qué es Samza?: el framework de procesamiento distribuido de streams de Linkedin

Si hace unos días publicábamos la comparativa entre Storm y S4 como arquitecturas open-source de procesamiento distribuido de streams:

https://unpocodejava.wordpress.com/2013/08/18/arquitecturas-open-source-de-procesamiento-distribuido-de-streaming-s4-vs-storm/

parece que tendremos que seguirle la pista a un nuevo producto open-source (este Luis no me deja descansar ni en vacaciones ;)).

Y si Storm viene de la mano de Twitter y S4 de Yahoo, Samza lo hace de la mano de Linkedin:

Apache Samza es un “distributed stream processing framework” (suena mucho mejor que en castellano :D)

Usa Apache Kafka para la mensajería y Apache Hadoop YARN para proporcionar tolerancia a fallos, seguridad, independencia de procesos y gestión de recursos.

Sus principales características son:

Samza aún acaba de moverse a open-source y está en incubación: es una versión con limitaciones (depende de un snapshot de Kafka, faltan funcionalidades,…) aunque sin duda es un producto a tener en consideración en el presente más cercano.

Podéis revisar su documentación (en el estilo Linkedin…) y los fans de Storm como yo podemos ver como se compara con Storm donde es de destacar la sinceridad de los redactores:

People generally want to know how similar systems compare. We’ve done our best to fairly contrast the feature sets of Samza with other systems. But we aren’t experts in these frameworks, and we are, of course, totally biased. If we have goofed anything let us know and we will correct it.”

Deja un comentario