博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop运维记录系列(十)
阅读量:5982 次
发布时间:2019-06-20

本文共 2364 字,大约阅读时间需要 7 分钟。

昨天同事遇到一个hadoop故障,找了半天没看出问题,问到我这里,花了一会解决了一下,估计这是我给暴风的集群解决的最后的故障了,以后就不定给谁解决问题去了。

只截下来了Namenode的报错Log,Datanode的刷屏刷过去了,不过都差不多。

2013-09-03 18:11:44,021 WARN org.apache.hadoop.hdfs.StateChange: BLOCK* NameSystem.blockReceived: blk_8094241928859719036_2147969 is received from dead or unregistered node 192.168.1.99:500102013-09-03 18:11:44,022 ERROR org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hdfs cause:java.io.IOException: Got blockReceived message from unregistered or dead node blk_8094241928859719036_21479692013-09-03 18:11:44,022 INFO org.apache.hadoop.ipc.Server: IPC Server handler 2 on 9000, call blockReceived(DatanodeRegistration(192.168.1.99:50010, storageID=DS-1925877777-192.168.1.99-50010-1372745739682, infoPort=50075, ipcPort=50020), [Lorg.apache.hadoop.hdfs.protocol.Block;@4ec371c, [Ljava.lang.String;@301611ca) from 192.168.1.99:18853: error: java.io.IOException: Got blockReceived message from unregistered or dead node blk_8094241928859719036_2147969java.io.IOException: Got blockReceived message from unregistered or dead node blk_8094241928859719036_2147969        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.blockReceived(FSNamesystem.java:4188)        at org.apache.hadoop.hdfs.server.namenode.NameNode.blockReceived(NameNode.java:1069)        at sun.reflect.GeneratedMethodAccessor13.invoke(Unknown Source)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)        at java.lang.reflect.Method.invoke(Unknown Source)        at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:578)        at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1393)        at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1389)        at java.security.AccessController.doPrivileged(Native Method)        at javax.security.auth.Subject.doAs(Unknown Source)        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1149)        at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1387)

看上去是个IPC的错误,从下往上看,都是报权限错误,然后无法注册Datanode,还有从未注册或死亡的Datanode上报了一个块已被接收的错误。同事就晕了,已经死亡的node怎么还上报啊。

然后重启datanode时间不长,就又挂掉了。

登录到datanode,先看了一下dfs的数据文件夹的权限,正确无误。然后看了一下df -h,发现/var文件夹满了,OPS很缺,只给分了20G的/var。结果Hadoop的log写不进去了,自然就挂了。删掉/var/log/hadoop/hdfs里面的历史日志,datanode启动正常。以后的解决办法只有两个,要么设置定时脚本每天删历史日志,要么就把/var/log/hadoop/hdfs文件夹软链到一个比较大的硬盘上。

马上要离开暴风影音了,心中有诸多槽点,以后慢慢吐了。

转载地址:http://fseox.baihongyu.com/

你可能感兴趣的文章
ruby动态new对象
查看>>
Linux中grep命令的12个实践例子
查看>>
使用Docker Compose部署基于Sentinel的高可用Redis集群
查看>>
Mybatis 3学习笔记(一)
查看>>
Guice系列之用户指南(十)
查看>>
树与森林的存储、遍历和树与森林的转换
查看>>
Android自定义属性
查看>>
Visual C#之核心语言
查看>>
代码重构(五):继承关系重构规则
查看>>
Windows App开发之集合控件与数据绑定
查看>>
中大型网站技术架构演变过程
查看>>
ARTS训练第三周
查看>>
vue中v-for循环如何将变量带入class的属性名中
查看>>
phpstorm xdebug remote配置
查看>>
引用与指针的区别
查看>>
pygtk笔记--2.1:布局容器,VBox、Hbox、Alignment
查看>>
dtree.js树的使用
查看>>
Springboot2.1.3 + redis 实现 cache序列化乱码问题
查看>>
线程什么时候需要同步,什么时候不需要同步?
查看>>
Struts2 自定义拦截器(方法拦截器)
查看>>