Comparando tiempos de Impala y Hive

(Gracias Luis, al menos me ha servido para aprovechar la noche del viernes :D)

Como ya comentábamos Cloudera Impala es una nueva solución opensource en el ecosistema Hadoop que permite hacer queries en tiempo real.

Entre sus características y beneficios destacan:

· Optimizada para consultar grandes volúmenes de datos de forma mucho más rápida que Hive

· Consultas pueden hacerse sobre HDFS o HBase

· Impala y Hive tienen una sintaxis muy semejante parecida a SQL-92 con In, BETWEEN, subqueries, INSERT INTO TABLE,…

· Hive encaja en el mundo Batch y Hive en el mundo online

· Se puede usar desde fichero o consola:

En esta presentación se explican los principales conceptos de Impala, especialmente interesante es la comparativa entre Hive e Impala en cuanto a tiempos de procesamiento:.

En Hive un SELECT COUNT tarda:

Ese mismo COUNT en Impala:

En un ejemplo más complejo:

Con Hive 341 segundos:

Con Impala

8 segundos!!!