El Cloudera Development Kit (CDK) es un conjunto de librerías, herramientas, ejemplos y documentación pensados para hacer más sencilla la creación de aplicaciones sobre el ecosistema Hadoop.
El proyecto está basado en Maven y está organizado en módulos. Además se intenta limitar el número de dependencias con sistemas externos.
Los módulos son:
· CDK Data: provee abstracciones para sistemas de almacenamiento como HDFS que permiten operar con ellos en términos de registros, datasets,…
· CDK Maven Plugin: es un plugin de Maven que permite empaquetar, desplegar y correr aplicaciones Hadoop
· CDK Morphlines: simplifica la creación de aplicaciones tipo ETL que extraen, transforman y cargan datos en HDFS, HBase,…
· CDK Tools: herramientas de línea de comandos y APIs para las tareas más comunes
· Examples: ejemplos de uso del CDK, pueden verse en este repositorio GitHub: https://github.com/cloudera/cdk-examples


Deja un comentario