Pangool es un API Javaopensource para MapReduce para usar sobre el API MapReduce Hadoop.
Implementa un esquema intermedio basado en Tuplas y permite una configuración más sencilla que la que ofrece Hadoop (hasta el Seconday Sort es fácil de entender en Pangool!!!)
Pangool es API-compatible con Hadoop 0.20.2 y superiors (incluyendo Cloudera’s CDH3).
Interesante en Pangool es que es capaz de mantener el rendimiento que ofrece Hadoop (otras aproximaciones como Cascading no pueden decir lo mismo), veamos:
El ejemplo de cuenta de palabras:
O el Secondary Sort:
Para los que conozcáis Hadoop podéis ver como se implementa en Pangool un Word count.




Deja un comentario