
Origen
Según Gartner, podemos definir un Data Lake como una colección de instancias de almacenamiento de diversos activos de datos donde estos activos se almacenan y mantienen como una réplica del formato de la fuente estructurada o no estructurada, además de los almacenes de datos originales. Algunos ejemplos de Data Lakes serían Amazon S3, Apache Hadoop y Azure Data Lake.
Seguro que os habéis quedado igual que yo…así que veamos una definición más precisa…
El término Data Lake (literalmente, lago de datos en inglés) fue acuñado por James Dixon, director tecnológico de Pentaho, y hace referencia a la naturaleza particular de los datos de este sistema, en contraste con los datos limpios y procesados guardados en los sistemas tradicionales de almacenes de datos o Data Mart, según Dixon, “si se piensa en un Data Mart como un almacén de agua embotellada limpia, empaquetada y estructurada para su fácil consumo, un Data Lake sería una gran masa de agua en un estado más natural. Su contenido proviene de una fuente que llena el lago y varios usuarios del mismo pueden venir a examinar, bucear o tomar muestras.
Quizás una definición más concreta sea la de Amazon Web Services que lo define como “Repositorio centralizado que permite almacenar todos los datos estructurados y no estructurados a cualquier escala. Puede almacenar los datos tal cual, sin tener que estructurarlos primero, y ejecutar diferentes tipos de análisis, desde cuadros de mando y visualizaciones hasta grandes procesamientos de datos, análisis en tiempo real y aprendizaje automático para tomar mejores decisiones.”
Y concretando….
Podemos definir un Data Lake como un repositorio de almacenamiento compartido que contienen una gran cantidad de datos en bruto (en su formato original o casi) y que se mantienen allí hasta que sea necesario, típicamente en una arquitectura plana para almacenar estos datos.
El término Data Lake se asocia a menudo con el almacenamiento en Hadoop, pero el término se ha acabada aceptando como una forma de describir cualquier gran conjunto de datos en el que el esquema y los requisitos de datos no se definen hasta que los datos se consultan.
Beneficios de un Data Lake
Entre los principales beneficios de un Data Lake se encuentran los siguientes:
- Centralización de fuentes de contenido dispares: Permite centralizar todos los datos en un mismo lugar, sea cual sea su origen para posteriormente ser procesado.
- Reducción de costes de preparación: Los datos se preparan «según sea necesario», lo que permite no tener que conocer cómo deben procesarse inicialmente y hacerlo cuando aplique (como si es requerido por los Data Warehouses).
- Procesamiento Big Data: Una vez extraídas de sus «silos de información» estas fuentes pueden ser combinadas y procesadas, puede normalizarse y enriquecerse, además de descubrimiento, exploración de datos y análisis para toma de decisiones. Los científicos de datos pueden acceder, preparar y analizar datos más rápidamente y con mayor precisión gracias a los Data Lakes.
- Ubicuidad Cualquier usuario autorizado puede acceder a la información y enriquecerla desde cualquier lugar, lo que ayuda a la organización a reunir con más facilidad los datos necesarios para tomar decisiones.
- Adaptación a los cambios: Una de las principales quejas sobre los data warehouses es cuánto tiempo se tarda en cambiarlos.
- Seguridad: un Data Lake contempla seguridad en el acceso a los datos para que los usuarios sólo pueda acceder a los datos a los que tiene permiso
- Ahorro de costes: Los Data Lakes suelen ejecutar un clústers de hardware commodity y permiten la escalabilidad horizontal, de modo que se puede ir incrementando la capacidad del Data Lake conforme sea necesaria.