R y Hadoop

R es un lenguaje y programa para análisis estadísticos y gráficos, que se distribuye gratuitamente bajo licencia GPL, está escrito en C y puede descargarse además de en código fuente compilado para Windows, Linux , Mac y Alpha Unix.

Si no conocéis R y queréis enteraros de lo que ofrece os recomiendo el libro R para principiantes (aunque algo antiguo a mi me fue de gran ayuda 🙂 ).

En la actualidad R es un lenguaje muy usado para análisis de datos (análisis estadístico, modelado predictivo, análisis interactivo,…), y por otro lado los datos cada vez son más Big Datos, lo que inexorablemente lleva a la convergencia R y Hadoop.

En este sentido este post pretende enumerar algunas de las opciones para trabajar con R dentro de infraestructura Hadoop, que pueden verse:

Rhdfs:

· Permite acceder a HDFS desde R: leer desde HDFS a un dataframe R o escribir de un dataframe R a HDFS

RHadoop:

· Permite integrar R en Hadoop

· Requiere instalar R en todos los nodos TaskTracker

RHive:

· Acceso a Hive

· Permite el uso de HQL desde R

· Requiere mucha configuración

Rhbase:

· Acceso a HBase, uso de API Thrift

rmr2:

· Permite escribir Jobs MapReduce con R

· Permite usar dataset Big Data

RODBC/RJDBC:

· Permite interactuar con bases de datos con interfaz ODBC/JDBC desde R

Leer más

Deja un comentario