Apache Hadoop 0.23: YARN

Hadoop 0.23 es la primera mayor release de Hadoop desde Hadoop 0.20 en 2009:

Hadoop 0.23 tiene varias mejores significativas como que es del orden de x2 veces más rápido: HDFS, MapReduce,… y que se construye con Maven.

La característica más importante de esta versión es lo que han denominado NextGen MapReduce (más conocido como YARN):

MapReduce ha sido objeto de una revisión completa en Hadoop 0,23 con el cambio fundamental que divide las dos funciones principales del JobTracker: gestión de recursos y planificación de tareas / monitoreo, en 2 demonios por separado.

Ahora se tiene:

· Un ResourceManager global (RM)

· Un ApplicationMaster (AM) por aplicación

Con esto ahora una aplicación es un Job simple (entendido tradicional de MapReduce Jobs) o un DAG de Jobs.

Por tanto los nuevos elementos que aparecen en YARN son:

Frente a Hadoop MR1:

PD: habría estado bien haberme sabido esto en detalle antes del examen de certificación de Cloudera (aunque quien se imagina que se iban a equivocar de examen y me iba a certificar en CDH4 :))

[Category BigData,Hadoop)

Deja un comentario