环境 hortonworks 2.3版本,ambari2.1.1, hadoop版本2.7.1
1. 下载RHadoop相关软件包
从地址(https://cran.r-project.org/src/base/R-3/)下载R语言的tar包
我下载的是:
https://cran.r-project.org/src/base/R-3/R-3.2.3.tar.gz
https://github.com/RevolutionAnalytics/rmr2/releases/download/3.3.1/rmr2_3.3.1.tar.gz
https://github.com/RevolutionAnalytics/rhdfs/blob/master/build/rhdfs_1.0.8.tar.gz
https://github.com/RevolutionAnalytics/rhbase/blob/master/build/rhbase_1.2.1.tar.gz
2. centos6.5 上安装R
然后安装相关依赖包:
#yum install gcc-gfortran
#yum install gcc gcc-c++
#yum install readline-devel
#yum install libXt-devel
# tar xvf R-3.2.3.tar.gz
# cd R-3.2.3
# ./configure
# make
# make install
3:确认Java环境变量
RHadoop依赖于rJava包,安装rJava前确认已经配置了Java环境变量,然后进行R对jvm建立连接。
[root@dataserver R-3.2.3]# cat /etc/profile结尾添加
########################################
export JAVA_HOME=/usr/java/jdk1.7.0_79
export JRE_HOME=/usr/java/jdk1.7.0_79/jre
export PATH=/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/root/bin
export CLASSPATH=.:/lib/dt.jar:/lib/tool.jar
export HADOOP_CMD=/usr/bin/hadoop
export HADOOP_STREAMING=/usr/hdp/current/hadoop-mapreduce-client/hadoop-streaming.jar
export HADOOP_HOME=/usr/hdp/current/hadoop-client
export JAVA_HOME JRE_HOME PATH CLASSPATH
########################################
[root@dataserver R-3.2.3]# R CMD javareconf
4:安装相关的依赖包,确保RHadoop软件包能正常使用
[root@dataserver R-3.2.3]# R
> install.packages("rJava")
> install.packages("reshape2")
> install.packages("Rcpp")
> install.packages("iterators")
> install.packages("itertools")
> install.packages("digest")
> install.packages("RJSONIO")
> install.packages("functional")
> install.packages("bitops")
> install.packages("caTools")
> quit()
或者
install.packages(c("rJava", "Rcpp", "RJSONIO", "bitops", "digest", "functional", "stringr", "plyr", "reshape2", "caTools"))
5:安装RHadoop软件包
[root@dataserver R-3.2.3]# export HADOOP_CMD=/usr/bin/hadoop
[root@dataserver R-3.2.3]# export HADOOP_STREAMING=/usr/hdp/current/hadoop-mapreduce-client/hadoop-streaming.jar
[root@dataserver R-3.0.2]# R CMD INSTALL rhdfs_1.0.8.tar.gz
[root@dataserver R-3.0.2]# R CMD INSTALL rmr2_3.3.1.tar.gz
[root@dataserver R-3.0.2]# R CMD INSTALL rhbase_1.2.1.tar.gz
6:使用RHadoop软件包
[root@dataserver R-3.2.3]# R
> library(rhdfs)
> hdfs.init()
> hdfs.ls("/")
[root@dataserver R-3.2.3]# export HADOOP_HOME=/usr/hdp/current/hadoop-client
> library(rmr2)
普通的R语言程序:
> small.ints = 1:10
> sapply(small.ints, function(x) x^2)
MapReduce的R语言程序:
> small.ints = to.dfs(1:10)
> mapreduce(input = small.ints, map = function(k, v) cbind(v, v^2))
> from.dfs("/tmp/RtmpWnzxl4/file5deb791fcbd5")
如果出现如下异常:
Caused by: java.io.IOException: Cannot run program "Rscript": error=2, No such file or directory at java.lang.ProcessBuilder.start(ProcessBuilder.java:1048) at org.apache.hadoop.streaming.PipeMapRed.configure(PipeMapRed.java:209) ... 23 more Caused by: java.io.IOException: error=2, No such file or directory at java.lang.UNIXProcess.forkAndExec(Native Method) at java.lang.UNIXProcess.<init>(UNIXProcess.java:248) at java.lang.ProcessImpl.start(ProcessImpl.java:134) at java.lang.ProcessBuilder.start(ProcessBuilder.java:1029) ... 24 more
需要做个链接:
ln -s /usr/local/bin/Rscript /usr/bin/Rscript
如果在centos7上安装R就简单多了:
步骤如下:
yum install epel-release
yum install R
相关推荐
rhadoop安装脚本, ubuntu下使用,包含 rhbase_1.2.0.tar.gz rhdfs_1.0.6.tar.gz rmr2_2.2.1.tar.gz
NULL 博文链接:https://cctype.iteye.com/blog/2035316
本文件中包含了RHadoop可以兼容使用的R语言、rhdfs、rmr、rhbase、thrift包,经本人亲自验证可以兼容成功安装的。
RHadoop是由Revolution Analytics发起的一个开源项目,它可以将统计语言R与Hadoop结合起来。目前该项目包括三个R packages,分别为支持用R来编写MapReduce应用的rmr、用于R语言访问HDFS的rhdfs以及用于R语言访问...
RHadoop环境配置实践新 RHadoop环境配置实践新 RHadoop环境配置实践新 RHadoop环境配置实践新 RHadoop环境配置实践新
RHadoop是由Revolution Analytics发起的一个开源项目,它可以将统计语言R与Hadoop结合起来。目前该项目包括三个R packages,分别为支持用R来编写MapReduce应用的rmr、用于R语言访问HDFS的rhdfs以及用于R语言访问...
要认识Rhadoop首先我们分别来认识R语言和Hadoop。 Hadoop已经成名好多年了,它是Apache软件基金会旗下的一个JAVA开源分布式计算平台,现已被各大互联网企业(包括Yahoo和Facebook等)用于大规模数据分布式存储与...
RHadoop教程使用RHadoop项目的R和Hadoop教程##幻灯片
RHadoop基础及高级分析
Rhadoop 构建入门资料,适合于R语言爱好者及软件开发者等等
7.2 RHadoop安装与使用 226 7.3 RHadoop实验:统计邮箱出现次数 233 7.4 RHadoop实现基于MapReduce的协同过滤算法 236 7.5 rHBase安装与使用 249 7.6 解决RHadoop安装错误:PipeMapRed.waitOutputThreads() ...
7.2 RHadoop安装与使用 226 7.3 RHadoop实验:统计邮箱出现次数 233 7.4 RHadoop实现基于MapReduce的协同过滤算法 236 7.5 rHBase安装与使用 249 7.6 解决RHadoop安装错误:PipeMapRed.waitOutputThreads() ...
RHadoop培训 之 R基础课 _ 粉丝日志_files
RStudio 安装完成后,如何初始化sparkR?CDH5不能用sparkR? CDH5只要hdfs和hive,spark直接公网下载最新版本,然后直接spark on yarn. sparkR初始化即可调测。
R在大数据Hadoop下的运用,完美结合,一把利器。
清华大学出品的R语言全套课程PPT学习课件,非常适合大学生和职场人士学习,也适合老鸟复习回顾,完全可用于自学入门,很经典好用的PPT课件哦~ (1)第1章 R语言绪论(1) (2)第2章 R语言入门 (3)第3章 数据模型 ...
清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第13章 RHadoop.rar
RHadoop安装步骤1:安装Hadoop和Spark 脚本setup_reqs.sh installs a bunch of dependencies and下载Hadoop和Spark。 如果您有一个预先存在的系统,请检查相关性以确保与您的配置没有冲突。 ./setup_reqs.sh 安装...
Hadoop-Analytics---RHadoop 简短描述 在本项目中,您将编写在 Hadoop 中实现数据挖掘和机器学习技术的 map-reduce 作业。 更具体地说,您将实施 K-Means 聚类技术并学习 RHadoop。 问题 1(K-Means 聚类)[50 分] K...
技术点26 在HDFS、MapReduce、Pig 和Hive 中使用数据压缩 技术点27 在MapReduce、Hive 和Pig 中处理可分割的LZOP 5.3 本章小结 6 诊断和优化性能问题 6.1 衡量MapReduce 和你的环境 6.1.1 提取作业统计...