Ya hemos dedicado algunos posts a Apache Hive, si queréis saber que es os recomiendo comenzar por este post.
En este caso vamos a hablar sobre una interesantes característica de Hive: SerDe.
El interfaz SerDe permite indicarle a Hive como debe procesar un registro. SerDe es una combinación de Serializer y Deserializer.
· Deserializer toma una representación string o binaria y lo convierte a un objeto Java que Hive puede manipular.
· Serializer: toma un objeto Java y lo convierte en algo que Hive puede escribir a HDFS.
Para usar un SerDe a la hora de crear la tabla debo indicar que SerDe usar:
En este artículo podéis ver como crear un SerDe para procesar datos JSON desde Hive, de modo que sobre un JSON como este:
Las consultas con Hive queden:





Deja un comentario