¿Qué es ImpalaToGo?

ImpalaToGo es un fork de Cloudera Impala independizado de Hadoop y optimizado para funcionar sobre Apache S3 almacenando datos localmente.

Los motivos que da su creador para usarlo son:

· Al ser un Impala sin Hadoop puedes usar las ventajas de su motor de queries sin todo el stack de Hadoop

· Optimizado para funcionar sobre Apache S3, es capaz de cachear datos en disco local

· Es la única base datos open source MPP escrita en C++

· Mucho más rápido que Hive sobre S3

Para este fichero JSON por ejemplo:

Modelaría esta tabla:

En la que estoy usando el nested_path para referirme a los atributos del JSON sobre el padre identity.

Y ya podré consultarlo fácilmente por estos campos: