Pangool: MapReduce made easy

Pangool es un API Javaopensource para MapReduce para usar sobre el API MapReduce Hadoop.

Implementa un esquema intermedio basado en Tuplas y permite una configuración más sencilla que la que ofrece Hadoop (hasta el Seconday Sort es fácil de entender en Pangool!!!)

Pangool es API-compatible con Hadoop 0.20.2 y superiors (incluyendo Cloudera’s CDH3).

Interesante en Pangool es que es capaz de mantener el rendimiento que ofrece Hadoop (otras aproximaciones como Cascading no pueden decir lo mismo), veamos:

El ejemplo de cuenta de palabras:

 

O el Secondary Sort:

 

Para los que conozcáis Hadoop podéis ver como se implementa en Pangool un Word count.

Deja un comentario