Data Lakes, Hadoop y otra propuesta open-source

Un poco de Java

Seguimos hoy con la anterior entrada ¿Qué es un Data Lake? hoy

Hadoop como Data Lake

El Data Lake se asocia a menudo con el almacenamiento de objetos orientado a Hadoop. En este escenario, los datos de una organización se cargan primero en la plataforma Hadoop y, a continuación, se aplican las herramientas de análisis y de minería de datos a los datos que residen en los nodos clúster de Hadoop.

En el núcleo de Hadoop encontramos su capa de almacenamiento, el HDFS (Sistema de archivos distribuidos de Hadoop), que almacena y replica los datos por múltiples servidores, además el ecosistema Hadoop engloba varias herramientas suplementarias, como Hive, Flume, Sqoop y Kafka que ayudan con la ingesta, la preparación y la extracción de datos.

Los data Lakes de Hadoop pueden montarse localmente o en Cloud mediante plataformas de empresa como Cloudera, Azure HDInsight o GCP DataProc.

Puntos fuertes de un…

Ver la entrada original 931 palabras más

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s