hadoop distcp: Backup de Hadoop en otro cluster de Hadoop

En los sistemas tradicionales siempre debe contemplarse el backup de la información que se genera en nuestro sistema hacia otros medios más baratos.

En el caso de Hadoop uno de los escenarios es no hacer backups , al fin y al cabo Hadoop está pensado para almacenar volúmenes casi infinitos de información y para además extraer información de interés de estos grandes volúmenes.

Otro escenario es hacer un backup de un cluster de Hadoop en otro cluster/datacenter de Hadoop. Es un modelo muy usado en Hadoop que se sostiene sobre:

  • El coste del almacenamiento en Hadoop es relativamente bajo
  • Permite disponer de los datos en el otro cluster para procesamiento.

Para realizar este proceso Hadoop ofrece el comando hadoop distcp que permite hacer un backup de un cluster a otro:

Leer más

Deja un comentario