ImpalaToGo es un fork de Cloudera Impala independizado de Hadoop y optimizado para funcionar sobre Apache S3 almacenando datos localmente.
Los motivos que da su creador para usarlo son:
· Al ser un Impala sin Hadoop puedes usar las ventajas de su motor de queries sin todo el stack de Hadoop
· Optimizado para funcionar sobre Apache S3, es capaz de cachear datos en disco local
· Es la única base datos open source MPP escrita en C++
· Mucho más rápido que Hive sobre S3
Más información en esta presentación: http://www.slideshare.net/DavidGroozman/impala-togo-usecase
La forma más sencilla de usarla es esta: https://github.com/ImpalaToGo/ImpalaToGo/wiki/Quick-Start
Además soporta JSON de esta forma
Para este fichero JSON por ejemplo:
Modelaría esta tabla:
En la que estoy usando el nested_path para referirme a los atributos del JSON sobre el padre identity.
Y ya podré consultarlo fácilmente por estos campos:
![]()




Deja un comentario