qq85609655

浏览: 1071892 次
性别:
来自: 北京

最近访客更多访客>>

ssydxa219

yuanliangding

常好修

joeytang9118

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

HDFS的dfs.replication不同验证

博客分类：

hadoop

HDFS的dfs.replication不同验证

集群只有三个Datanode，hadoop系统replication=4时，会出现什么情况？文件块只有三份，hadoop fsck -locations 如图所示：

对于上传文件到hdfs上时，当时hadoop的副本系数是几，这个文件的块数副本数就会有几份，无论以后你怎么更改系统副本系统，这个文件的副本数都不会改变，也就说上传到分布式系统上的文件副本数由当时的系统副本数决定，不会受replication的更改而变化，除非用命令来更改文件的副本数。因为dfs.replication实质上是client参数，在create文件时可以指定具体replication，属性dfs.replication是不指定具体replication时的采用默认备份数。文件上传后，备份数已定，修改dfs.replication是不会影响以前的文件的，也不会影响后面指定备份数的文件。只影响后面采用默认备份数的文件。但可以利用hadoop提供的命令后期改某文件的备份数：hadoop fs -setrep -R 1。如果你是在hdfs-site.xml设置了dfs.replication，这并一定就得了，因为你可能没把conf文件夹加入到你的 project的classpath里，你的程序运行时取的dfs.replication可能是hdfs-default.xml里的 dfs.replication，默认是3。可能这个就是造成你为什么dfs.replication老是3的原因。你可以试试在创建文件时，显式设定replication。replication一般到3就可以了，大了意义也不大。
client也可以通过Datanode上传数据到hdfs上，我的集群是在Datanode的/home/hadoop/bin/./hadoop dfs -copyFromLocal 文件所在路径分布式路径，不用ssh登录到NameNode上，这样，文件的第一个副本数在这个Datanode上，会将文件传到第二个节点上，而第二个节点在接收并保存数据时，又以4KB的速度将文件传到第三个节点上，以此类推。

hadoop多种环境的简单切换办法
hadoop提供了三种环境，单机运行，单机模拟伪分布运行，以及真分布运行。一种简单的在这三种运行环境之间切换的方法，
在HADOOP_HOME底下建三个conf目录，分别为conf_a,conf_b,conf_c，分别对应三种环境的运行配置，接下来切换就简单了：想切换到a，只需要停服务，ln -s conf_a conf，然后启服务。b和c也是同理。
修改hadoop集群的备份数
之前dfs.replication值为3，运行一段时间后使用完了磁盘空间，所以现在我想通过降低备份的个数来释放空间，那么对于之前存储的文件会自动把备份数改为1吗？还是需要手动执行命令来执行呢？dfs.replication这个参数其实只在文件被写入dfs时起作用，虽然更改了配置文件，但是不会改变之前写入的文件的备份数。但是可以通过命令更改备份数：bin/hadoop fs -setrep -R 1 /

修改hadoop的备份系数dfs.replication

Hadoop中常常需要增加新的节点，或者变更备份系数。在完成这些操作后，往往出现数据未自动备份，或者数据节点不可用的情况。本文就讨论一下这个问题。

Hadoop的备份系数是指每个block在hadoop集群中有几份，系数越高，冗余性越好，占用存储也越多。备份系数在hdfs-site.xml中定义，默认值为3.

如何变更备份系数?

首先stop-all.sh停止节点，修改master节点的hdfs-site.xml文件，设置dfs.relication值为目标值。启动hadoop集群。

查看文件的备份系数：hadoop dfs -ls [filename] 结果行中的第二列是备份系数（注：文件夹信息存储在namenode节点上，所以没有备份，故文件夹的备份系数是横杠）

在操作后会发现，以前文件的备份系数仍是原来的值。原来hadoop并不会自动的按照新的备份系数调整，我们需要手动完成。

查看hadoop集群的备份冗余情况：hadoop fsck / 我很喜欢的命令，可以方便的看到各种类型block所占比例。

我们发现Average block replication的值仍然为旧值，所以我们需要修改hdfs中文件的备份系数。

修改hdfs文件备份系数：hadoop dfs -setrep [-R] <path> 如果有-R将修改子目录文件的性质。hadoop dfs -setrep -w 3 -R /user/hadoop/dir1 就是把目录下所有文件备份系数设置为3.

如果再fsck时候出错，往往是由于某些文件的备份不正常导致的，可以用hadoop的balancer工具修复

自动负载均衡hadoop文件：hadoop balancer

查看各节点的磁盘占用情况 hadoop dfsadmin -report

hadoop集群动态扩展

Hadoop集群节点的动态增加与删除

Hadoop集群节点的动态增加
1. 安装配置节点
具体过程参考《Hadoop集群实践之 (1) Hadoop(HDFS)搭建》

2. 在配置过程中需要在所有的Hadoop服务器上更新以下三项配置
$ sudo vim /etc/hadoop/conf/slaves

hadoop-node-1
hadoop-node-2
hadoop-node-3

$ sudo vim /etc/hosts

10.6.1.150 hadoop-master
10.6.1.151 hadoop-node-1
10.6.1.152 hadoop-node-2
10.6.1.153 hadoop-node-3

$ sudo vim /etc/hadoop/conf/hdfs-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
  <name>dfs.data.dir</name>
  <value>/data/hdfs</value>
</property>
<property>
  <name>dfs.replication</name>
  <value>3</value>
</property>
<property>
  <name>dfs.datanode.max.xcievers</name>
  <value>4096</value>
</property>
</configuration>

3. 启动datanode与tasktracker
dongguo@hadoop-node-3:~$ sudo /etc/init.d/hadoop-0.20-datanode start
dongguo@hadoop-node-3:~$ sudo /etc/init.d/hadoop-0.20-tasktracker start

4. 检查新增节点是否已经Live
通过WEB管理界面查看

http://10.6.1.150:50070/dfsnodelist.jsp?whatNodes=LIVE

可以看到hadoop-node-3已经被动态添加到了Hadoop集群中

5.应用新的备份系数dfs.replication

5.1 检查目前的备份系数
dongguo@hadoop-master:~$ sudo -u hdfs hadoop fs -lsr /dongguo
-rw-r--r-- 2 hdfs supergroup 33 2012-10-07 22:02 /dongguo/hello.txt

结果行中的第2列是备份系数（注：文件夹信息存储在namenode节点上，没有备份，故文件夹的备份系数是横杠-）
目前文件的备份系数仍是之前设置的参数2，Hadoop不会自动的按照新的备份系数进行调整。

dongguo@hadoop-master:~$ sudo -u hdfs hadoop fsck /

12/10/10 21:18:32 INFO security.UserGroupInformation: JAAS Configuration already set up for Hadoop, not re-installing.
FSCK started by hdfs (auth:SIMPLE) from /10.6.1.150 for path / at Wed Oct 10 21:18:33 CST 2012
.................Status: HEALTHY
 Total size:	7786 B
 Total dirs:	46
 Total files:	17
 Total blocks (validated):	17 (avg. block size 458 B)
 Minimally replicated blocks:	17 (100.0 %)
 Over-replicated blocks:	0 (0.0 %)
 Under-replicated blocks:	0 (0.0 %)
 Mis-replicated blocks:		0 (0.0 %)
 Default replication factor:	2
 Average block replication:	2.0
 Corrupt blocks:		0
 Missing replicas:		0 (0.0 %)
 Number of data-nodes:		4
 Number of racks:		1
FSCK ended at Wed Oct 10 21:18:33 CST 2012 in 48 milliseconds
The filesystem under path '/' is HEALTHY

通过 hadoop fsck / 也可以方便的看到Average block replication的值仍然为旧值2，该值我们可以手动的进行动态修改。
而Default replication factor则需要重启整个Hadoop集群才能修改，但实际影响系统的还是Average block replication的值，因此并非一定要修改默认值。

5.2 修改hdfs文件备份系数，把/ 目录下所有文件备份系数设置为3
dongguo@hadoop-master:~$ sudo -u hdfs hadoop dfs -setrep -w 3 -R /

12/10/10 21:22:35 INFO security.UserGroupInformation: JAAS Configuration already set up for Hadoop, not re-installing.
Replication 3 set: hdfs://hadoop-master/dongguo/hello.txt
Replication 3 set: hdfs://hadoop-master/hbase/-ROOT-/70236052/.oldlogs/hlog.1349695889266
Replication 3 set: hdfs://hadoop-master/hbase/-ROOT-/70236052/.regioninfo
Replication 3 set: hdfs://hadoop-master/hbase/-ROOT-/70236052/info/7670471048629837399
Replication 3 set: hdfs://hadoop-master/hbase/.META./1028785192/.oldlogs/hlog.1349695889753
Replication 3 set: hdfs://hadoop-master/hbase/.META./1028785192/.regioninfo
Replication 3 set: hdfs://hadoop-master/hbase/.META./1028785192/info/7438047560768966146
Waiting for hdfs://hadoop-master/dongguo/hello.txt .... done
Waiting for hdfs://hadoop-master/hbase/-ROOT-/70236052/.oldlogs/hlog.1349695889266 ... done
Waiting for hdfs://hadoop-master/hbase/-ROOT-/70236052/.regioninfo ... done
Waiting for hdfs://hadoop-master/hbase/-ROOT-/70236052/info/7670471048629837399 ... done
Waiting for hdfs://hadoop-master/hbase/.META./1028785192/.oldlogs/hlog.1349695889753 ... done
Waiting for hdfs://hadoop-master/hbase/.META./1028785192/.regioninfo ... done
Waiting for hdfs://hadoop-master/hbase/.META./1028785192/info/7438047560768966146 ... done
...

可以看到Hadoop对所有文件的备份系数进行了刷新

5.3 再次检查备份系数的情况
dongguo@hadoop-master:~$ sudo -u hdfs hadoop fsck /

12/10/10 21:23:26 INFO security.UserGroupInformation: JAAS Configuration already set up for Hadoop, not re-installing.
FSCK started by hdfs (auth:SIMPLE) from /10.6.1.150 for path / at Wed Oct 10 21:23:27 CST 2012
.................Status: HEALTHY
 Total size:	7786 B
 Total dirs:	46
 Total files:	17
 Total blocks (validated):	17 (avg. block size 458 B)
 Minimally replicated blocks:	17 (100.0 %)
 Over-replicated blocks:	0 (0.0 %)
 Under-replicated blocks:	0 (0.0 %)
 Mis-replicated blocks:		0 (0.0 %)
 Default replication factor:	2
 Average block replication:	3.0
 Corrupt blocks:		0
 Missing replicas:		0 (0.0 %)
 Number of data-nodes:		4
 Number of racks:		1
FSCK ended at Wed Oct 10 21:23:27 CST 2012 in 11 milliseconds
The filesystem under path '/' is HEALTHY

可以看到已经变成了新的备份系数"3"

5.4 测试一下创建新的文件时是否能集成新的备份系数
dongguo@hadoop-master:~$ sudo -u hdfs hadoop fs -copyFromLocal mysql-connector-java-5.1.22.tar.gz /dongguo
dongguo@hadoop-master:~$ sudo -u hdfs hadoop fs -lsr /dongguo

-rw-r--r--   3 hdfs supergroup         33 2012-10-07 22:02 /dongguo/hello.txt
-rw-r--r--   3 hdfs supergroup    4028047 2012-10-10 21:28 /dongguo/mysql-connector-java-5.1.22.tar.gz

可以看到新上传的文件的备份系数是"3"

6 对HDFS中的文件进行负载均衡
dongguo@hadoop-master:~$ sudo -u hdfs hadoop balancer

Time Stamp               Iteration#  Bytes Already Moved  Bytes Left To Move  Bytes Being Moved
12/10/10 21:30:25 INFO net.NetworkTopology: Adding a new node: /default-rack/10.6.1.153:50010
12/10/10 21:30:25 INFO net.NetworkTopology: Adding a new node: /default-rack/10.6.1.150:50010
12/10/10 21:30:25 INFO net.NetworkTopology: Adding a new node: /default-rack/10.6.1.152:50010
12/10/10 21:30:25 INFO net.NetworkTopology: Adding a new node: /default-rack/10.6.1.151:50010
12/10/10 21:30:25 INFO balancer.Balancer: 0 over utilized nodes:
12/10/10 21:30:25 INFO balancer.Balancer: 0 under utilized nodes: 
The cluster is balanced. Exiting...
Balancing took 1.006 seconds

至此，Hadoop集群的动态增加就已经完成了。
下面，我开始对Hadoop集群的节点进行动态的删除。

Hadoop集群节点的动态删除
1. 使用新增的节点
尽可能的在HDFS中产生一些测试数据，并通过Hive执行一些Job以便使新的节点也执行MapReduce并行计算。
这样做的原因是尽可能的模拟线上的环境，因为线上环境在进行删除节点之前肯定是有很多数据和Job执行过的。

2. 修改core-site.xml
dongguo@hadoop-master:~$ sudo vim /etc/hadoop/conf/core-site.xml

<property>
  <name>dfs.hosts.exclude</name>
  <value>/etc/hadoop/conf/exclude</value>
  <description>Names a file that contains a list of hosts that are
  not permitted to connect to the namenode.  The full pathname of the
  file must be specified.  If the value is empty, no hosts are
  excluded.</description>
</property>

3. 修改hdfs-site.xml
dongguo@hadoop-master:~$ sudo vim /etc/hadoop/conf/hdfs-site.xml

<property>
  <name>dfs.hosts.exclude</name>
  <value>/etc/hadoop/conf/exclude</value>
  <description>Names a file that contains a list of hosts that are
  not permitted to connect to the namenode.  The full pathname of the
  file must be specified.  If the value is empty, no hosts are
  excluded.</description>
</property>

4. 创建/etc/hadoop/conf/exclude
dongguo@hadoop-master:~$ sudo vim /etc/hadoop/conf/exclude

hadoop-node-3

在文件中增加需要删除的节点，一行一个，我这里仅需要写入新增的hadoop-node-3做测试。

5. 降低备份系数
在我的测试环境中，目前节点为4台，备份系数为3，如果去掉一台的话备份系数就与节点数相同了，而Hadoop是不允许的。
通常备份系数不需要太高，可以是服务器总量的1/3左右即可，Hadoop默认的数值是3。

下面，我们将备份系数从3降低到2

5.1 在所有的Hadoop服务器上更新以下配置
$ sudo vim /etc/hadoop/conf/hdfs-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
  <name>dfs.data.dir</name>
  <value>/data/hdfs</value>
</property>
<property>
  <name>dfs.replication</name>
  <value>2</value>
</property>
<property>
  <name>dfs.datanode.max.xcievers</name>
  <value>4096</value>
</property>
</configuration>

5.2 修改hdfs文件备份系数，把/ 目录下所有文件备份系数设置为2
dongguo@hadoop-master:~$ sudo -u hdfs hadoop dfs -setrep -w 2 -R /

遇到的疑问：
在进行文件备份系数的降低时，能够很快的进行Replication set，但是在Waiting for的过程中却很长时间没有完成。
最终只能手动Ctrl+C中断，个人猜测在这个过程中HDFS正视图对数据文件进行操作，在删除一个副本容量的数据。
因此，我们应该对dfs.replication的数值做出很好的规划，尽量避免需要降低该数值的情况出现。

6. 动态刷新配置
dongguo@hadoop-master:~$ sudo -u hdfs hadoop dfsadmin -refreshNodes

7. 检查节点的处理状态
通过WEB管理界面查看
Decommissioning(退役中)

http://10.6.1.150:50070/dfsnodelist.jsp?whatNodes=DECOMMISSIONING

Dead(已经下线)

http://10.6.1.150:50070/dfsnodelist.jsp?whatNodes=DEAD

可以看到，节点已经经历了退役的过程并成功的下线了。

需要注意的是：
在删除节点时一定要停止所有Hadoop的Job，否则程序还会向要删除的节点同步数据，这样也会导致Decommission的过程一直无法完成。

8. 检查进程状态
这时我们查看进程状态，可以发现datanode进程已经被自动中止了
dongguo@hadoop-node-3:~$ sudo /etc/init.d/hadoop-0.20-datanode status
hadoop-0.20-datanode is not running.

而Tasktracker进程还在，需要我们手动中止
dongguo@hadoop-node-3:~$ sudo /etc/init.d/hadoop-0.20-tasktracker status
hadoop-0.20-tasktracker is running
dongguo@hadoop-node-3:~$ sudo /etc/init.d/hadoop-0.20-tasktracker stop
Stopping Hadoop tasktracker daemon: stopping tasktracker
hadoop-0.20-tasktracker.

此时，即使我们手动启动datanode，也是不能成功的，日志中会显示UnregisteredDatanodeException的错误。
dongguo@hadoop-node-3:~$ sudo /etc/init.d/hadoop-0.20-datanode start

Starting Hadoop datanode daemon: starting datanode, logging to /usr/lib/hadoop-0.20/logs/hadoop-hadoop-datanode-hadoop-node-3.out
ERROR. Could not start Hadoop datanode daemon

dongguo@hadoop-node-3:~$ tailf /var/log/hadoop/hadoop-hadoop-datanode-hadoop-node-3.log

 
2012-10-11 19:33:22,084 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.UnregisteredDatanodeException: Data node hadoop-node-3:50010 is attempting to report storage ID DS-500645823-10.6.1.153-50010-1349941031723. Node 10.6.1.153:50010 is expected to serve this storage.
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getDatanode(FSNamesystem.java:4547)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.verifyNodeRegistration(FSNamesystem.java:4512)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.registerDatanode(FSNamesystem.java:2355)
	at org.apache.hadoop.hdfs.server.namenode.NameNode.register(NameNode.java:932)
	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
	at java.lang.reflect.Method.invoke(Method.java:597)
	at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:557)
	at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1434)
	at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1430)
	at java.security.AccessController.doPrivileged(Native Method)
	at javax.security.auth.Subject.doAs(Subject.java:396)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1157)
	at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1428)
        at org.apache.hadoop.ipc.Client.call(Client.java:1107)
	at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:226)
	at $Proxy4.register(Unknown Source)
	at org.apache.hadoop.hdfs.server.datanode.DataNode.register(DataNode.java:717)
	at org.apache.hadoop.hdfs.server.datanode.DataNode.runDatanodeDaemon(DataNode.java:1519)
	at org.apache.hadoop.hdfs.server.datanode.DataNode.createDataNode(DataNode.java:1586)
	at org.apache.hadoop.hdfs.server.datanode.DataNode.secureMain(DataNode.java:1711)
	at org.apache.hadoop.hdfs.server.datanode.DataNode.main(DataNode.java:1728)
2012-10-11 19:33:22,097 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down DataNode at hadoop-node-3/10.6.1.153
************************************************************/

至此，对Hadoop集群节点的动态删除也已经成功完成了。

查看图片附件

分享到：

KeePass密码管理与自动登录 | HDFS dfs.replication 设定

2014-12-12 11:43
浏览 14898
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HDFS的dfs.replication不同验证

HDFS的dfs.replication不同验证

修改hadoop的备份系数dfs.replication

hadoop集群动态扩展

Hadoop集群节点的动态增加与删除

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HDFS的dfs.replication不同验证

HDFS的dfs.replication不同验证

修改hadoop的备份系数dfs.replication

hadoop集群动态扩展

Hadoop集群节点的动态增加与删除

评论

发表评论

相关推荐

Apache Drill 入手

R rmr2

WebHDFS vs HttpFS GateWay

RHadoop安装和使用

hbase的sql工具phoenix整合到pentaho中

Hive ROW_NUMBER,RANK(),DENSE_RANK()

HBase基础之常用过滤器hbase shell操作

PDI(Kettle)5.x配置hadoop

flume 例子

在Kettle(PDI)跑Apache Spark作业

升级Ambari到2.0，hadoop版本升级

Error oozie

HDFS block丢失过多进入安全模式（safe mode）的解决方法

ambari 重新安装节点上的组件

Hadoop迁移Namenode

解决Eclipse中运行WordCount出现 java.lang.ClassNotFoundException: org.apache.hadoop.exam

windows下Eclipse开发MapReduce

远程调试hadoop2以及错误处理方法

Flume 1.5.0简单部署

Phoenix的安装与使用

最近访客更多访客>>