Un poco de Trident

Ya hemos dedicado algunos post a Storm, el framework para procesamiento de streams de datos Big Data, capaz de soportar millones de

https://unpocodejava.wordpress.com/2012/07/26/cuando-hadoop-no-es-suficientemente-rapido/

https://unpocodejava.wordpress.com/2012/09/17/storm-el-hadoop-para-procesar-streams/

Hoy quería hablar sobre Trident, que es en esencia una abstracción de alto nivel sobre Storm para realizar computación en tiempo real.

Con Trident se puede manejar un alto throughput (millones de mensajes por segundo) y realizar un procesamiento de streams stateful con queries distribuidas de baja latencia.

Estas palabras acercan aún más Storm a un CEP Big Data!!!

Si comparamos Storm con Hadoop Trident sería el Pig o el Cascading.

Trident permite:

JOINS, AGREGACIONES, GROUPS, FUNCIONES Y FILTROS
Añadir primitivas para realizar procesamiento incremental con estado sobre cualquier store persistente

Veamos algún ejemplo ilustrativo:

Primero tenemos un generador (Spout) infinito (Cycle) de streams de sentencias:

En un ejemplo real las entradas podrían ser colas Kafka o Kestrel.

Una topología Trident que contase las palabras de las sentencias que van llegando sería como esto:

Trident procesa los streams como pequeños batchs separándolo en algo como:

Los resultados del agregado pueden persistirse a una base de datos o bien usar por ejemplo Memcached con la integración que ofrece Trident.

Las topologías Trident compilan en topologías Storm lo más eficientes posible, las tuplas sólo viajan por la red cuando se realizar un particionado (como por un groupBy).

Por ejemplo esta topología Trident:

Compilaría en esta topología Storm:

Lo único que echo en falta a Trident es un lenguaje declarativo (y no con API Java) para definir las consultas.

Tu voto:

6 junio 2013

Respuestas

Auto-links sobre sobre Big Data | Un poco de Java

julio 9, 2013 at 12:24 pm

[…] o https://unpocodejava.wordpress.com/2013/06/06/un-poco-de-trident/ […]

Responder
Consultas DRPC con Trident | La bitacora net

septiembre 10, 2013 at 4:53 pm

[…] Trident es una abstracción de alto nivel sobre Storm para facilitar el procesamiento de streams stateful. Trident permite realizar joins, agregaciones, groups, funciones y filtros sobre los datos recibidos. Para saber más sobre Trident podéis mirar (entre otras mucha cosas) el API de Trident y el post un poco de Trident. […]

Responder
Consultas DRPC con Trident | Un poco de Java

septiembre 10, 2013 at 5:00 pm

[…] Trident es una abstracción de alto nivel sobre Storm para facilitar el procesamiento de streams stateful. Trident permite realizar joins, agregaciones, groups, funciones y filtros sobre los datos recibidos. Para saber más sobre Trident podéis mirar (entre otras muchos sitios) el API de Trident y el post un poco de Trident. […]

Responder

Un poco de Trident

Tu voto:

Comparte esto:

Respuestas

Deja un comentario Cancelar la respuesta