R es un lenguaje y programa para análisis estadísticos y gráficos, que se distribuye gratuitamente bajo licencia GPL, está escrito en C y puede descargarse además de en código fuente compilado para Windows, Linux , Mac y Alpha Unix.
Si no conocéis R y queréis enteraros de lo que ofrece os recomiendo el libro R para principiantes (aunque algo antiguo a mi me fue de gran ayuda 🙂 ).
En la actualidad R es un lenguaje muy usado para análisis de datos (análisis estadístico, modelado predictivo, análisis interactivo,…), y por otro lado los datos cada vez son más Big Datos, lo que inexorablemente lleva a la convergencia R y Hadoop.
En este sentido este post pretende enumerar algunas de las opciones para trabajar con R dentro de infraestructura Hadoop, que pueden verse:
· Permite acceder a HDFS desde R: leer desde HDFS a un dataframe R o escribir de un dataframe R a HDFS
· Permite integrar R en Hadoop
· Requiere instalar R en todos los nodos TaskTracker
· Acceso a Hive
· Permite el uso de HQL desde R
· Requiere mucha configuración
· Acceso a HBase, uso de API Thrift
rmr2:
· Permite escribir Jobs MapReduce con R
· Permite usar dataset Big Data
· Permite interactuar con bases de datos con interfaz ODBC/JDBC desde R






Deja un comentario