RStudio ha publicado sparklyr, un nuevo paquete R que ofrece un interfaz entre R y pache Spark.
Sparklyr ofrece:
· Manipulación de datos Spark desde dplyr y SQL (vía DBI)
· Filtrado y agregado de datasets Spark desde R
· Interfaces para los algoritmos Machine Learning de Spark MLib y H2O SparklingWater
· Extensiones para proveer interfaces con otros paquetes Spark
· Soporte integrado para trabajar con DataFrames dentro del IDE RStudio
Para instalarlo haré:

Si quiero instalar Spark en local para desarrollo entonces:
Para conectar con Spark (obteniendo un SparkContext):
También puedo copiar Data Frames de R a Spark usando la función copy_to:
Puedo usar Spark SQL vía DBI:
Y Spark MLib:
O H2O Sparkling Water:
La última versión de RStudio ofrece soporte para Spark vía sparklyr:
Y podré ver las tablas y DataFrames Spark:










Deja un comentario