(Gracias Luis, al menos me ha servido para aprovechar la noche del viernes :D)
Como ya comentábamos Cloudera Impala es una nueva solución opensource en el ecosistema Hadoop que permite hacer queries en tiempo real.
Entre sus características y beneficios destacan:
· Optimizada para consultar grandes volúmenes de datos de forma mucho más rápida que Hive
· Consultas pueden hacerse sobre HDFS o HBase
· Impala y Hive tienen una sintaxis muy semejante parecida a SQL-92 con In, BETWEEN, subqueries, INSERT INTO TABLE,…
· Hive encaja en el mundo Batch y Hive en el mundo online
· Se puede usar desde fichero o consola:
En esta presentación se explican los principales conceptos de Impala, especialmente interesante es la comparativa entre Hive e Impala en cuanto a tiempos de procesamiento:.
En Hive un SELECT COUNT tarda:
Ese mismo COUNT en Impala:
En un ejemplo más complejo:
Con Hive 341 segundos:
Con Impala
![]()
8 segundos!!!







Deja un comentario