Cloudera Impala es una nueva solución opensource en el ecosistema Hadoop, aún en fase Beta que inspirada en Google Dremel permite hacer queries en tiempo real de datos almacenados en HDFS o Apache HBase incluyendo SELECT, JOIN,…
Usa una sintaxis SQL (como Hive SQL), un driver ODBC y ofrece un interfaz (Hue Beeswax).
En su beta soporta ficheros de texto y SequenceFiles (comprimidos como GZIP, BZIP o Snappy), en el futuro soportará también formato Avro y LZO.
Para evitar las latencias Impala accede a los datos a través de un motor distribuido de queries lo que hace que sea mucho más rápido que Hive (vaya, me alegra no estar equivocado con lo del deficiente rendimiento de Hive :))
Podéis acceder a su documentación aquí.


Deja un comentario