随笔分类 -  hadoop

摘要:之前下架过节点,导致副本数量不全,再做健康检查时,发现许多这样的信息。 当然这样的信息并不是一定有问题,比如以下目录副本数就只有一个; 执行的flink的任务时,/flink/job/目录 hbase的一些tmp临时目录 /hbase/tmp 上传的jar包程序 /jars/ Under repli 阅读全文
posted @ 2022-12-01 15:58 硅谷工具人 阅读(299) 评论(0) 推荐(0)
摘要:~~注意:以下操作都是理论上的,由于我安装的是apache hadoop3.1.3 原生版本,所以按照以下操作时,全部不生效~~ ~~最后只能通过手工停止datanode,nodemanger,停止节点。~~ ~~然后修改works,在HA模式下,先停1个namenode,然后重启。再停另外个nam 阅读全文
posted @ 2022-11-29 15:01 硅谷工具人 阅读(204) 评论(0) 推荐(0)
摘要:hadoop如果一个节点内有新增磁盘或者数据出现在磁盘上不均衡时,需要做磁盘均衡,就是将其他已经写入数据的磁盘均衡到新增加的磁盘上去,大概分为以下三个步骤,计划,执行,查询: 一般默认都开启了磁盘均衡,但是我这种状况特殊,公司给的初始磁盘大小不一样。。。我也没辙。。我只是试验下,我这种情况能否做数据 阅读全文
posted @ 2022-11-17 10:27 硅谷工具人 阅读(156) 评论(0) 推荐(0)
摘要:当运维丢给你一台新装的操作系统,本文将记录手工添加一个节点需要做哪些具体的操作,当前的版本是apache hadoop,未使用CDH版本。 1 系统环境设置 1.1 修改hostname 根据IP设置对应节点的名称,比如增加一个192.168.1.130节点作为数据节点。 临时设置:hostname 阅读全文
posted @ 2022-09-17 10:57 硅谷工具人 阅读(112) 评论(0) 推荐(0)
摘要:hdfs dfs -du -s -h /user/hive/warehouse/xy_ods.db/ods_test/pk_year=2021/pk_month=2021-12/pk_day=2021-12-30 如果需要截取前面的文件大小413.0G,还需要添加截取功能。 hdfs dfs -du 阅读全文
posted @ 2022-06-21 19:51 硅谷工具人 阅读(496) 评论(0) 推荐(0)
摘要:动态刷新hdfs配置:hdfs dfsadmin -fs hdfs://nn1:8020 -refreshSuperUserGroupsConfigurationhdfs dfsadmin -fs hdfs://nn2:8020 -refreshSuperUserGroupsConfiguratio 阅读全文
posted @ 2021-09-07 12:35 硅谷工具人 阅读(334) 评论(0) 推荐(0)
摘要:NTP在Linux下有两种时钟同步方式: 直接同步(也称跳跃同步)和平滑同步(也称微调同步)。 直接同步 使用ntpdate命令进行同步,直接进行时间变更。 如果服务器上存在一个12点运行的任务,当前服务器时间是13点,但标准时间时11点,使用此命令可能会造成任务重复执行。因此使用ntpdate同步 阅读全文
posted @ 2019-07-23 12:47 硅谷工具人 阅读(14724) 评论(3) 推荐(0)
摘要:前言 这是一篇学习笔记。 学习的材料来自Jay Kreps的一篇讲Log的博文。 原文非常长。可是我坚持看完了,收获颇多,也深深为Jay哥的技术能力、架构能力和对于分布式系统的理解之深刻所折服。同一时候也由于某些理解和Jay哥观点吻合而略沾沾自喜。 Jay Kreps是前Linkedin的Princ 阅读全文
posted @ 2019-04-11 14:07 硅谷工具人 阅读(618) 评论(0) 推荐(1)
摘要:1. 直接删除目录(不放入回收站) 2. 清空回收站 阅读全文
posted @ 2018-11-06 10:12 硅谷工具人 阅读(1519) 评论(0) 推荐(0)
摘要:1. maven设置 除了阿里云库,还需要引入 cdh, spring库。需要修改maven下面的配置文件setting.xml, 参考下面设置。 2. 在项目文件pom.xml中引入的是cdh对应版本的包 设置cdh库,spring库。 依赖包需要加入cdh版本的 其他的依赖包正常添加即可。 附上 阅读全文
posted @ 2018-11-01 20:01 硅谷工具人 阅读(2053) 评论(0) 推荐(0)
摘要:推荐 1、gitbook 这里可以找到优秀的文章及书籍 2、about云 大数据论坛,网站上很多大数据资料 hadoop 博文: 1、Hadoop2.x集群安装配置笔记 初学搭建hadoop 2、搭建hadoop2.6.0 HDFS HA及YARN HA 启动hadoopHA容灾机制 3、Cloud 阅读全文
posted @ 2018-10-26 11:58 硅谷工具人 阅读(446) 评论(0) 推荐(0)
摘要:使用okhttp工具集来开发:(如果文件已经存在会报错) 配置启动脚本如下: 阅读全文
posted @ 2018-10-09 20:13 硅谷工具人 阅读(1041) 评论(0) 推荐(0)
摘要:今天修改了和journalNode通信的zookeeper配置,原来没有打开zookeeper动态清理快照的功能。 所以3台zookeeper节点,每台修改完配置后,然后重启了下zookeeper服务。 然后就发现hadoop集群发生脑裂了,并且两台namenode节点都是standby状态。 经过 阅读全文
posted @ 2018-06-27 14:50 硅谷工具人 阅读(820) 评论(0) 推荐(0)
摘要:之前一直没做过rebalance,以为速度很快,结果大意了,等到磁盘达到90%的时候,才开始做rebalance。 默认的从日志中可以看到总共需要迁移1.89T,但是每次只移动40G大小的量。 然后查看40G的数据量从15:45分到15:48分,所以结算结果为每分钟13G,每秒228M左右。(感觉这 阅读全文
posted @ 2018-06-25 15:53 硅谷工具人 阅读(1733) 评论(0) 推荐(0)
摘要:前几个月进行的大数据架构的升级: 原来的大数据集群的状况如下: 1)主从模式,从多个日志源采集后, 2)接收端只用了1个flume接收,存储到hdfs上。 3)并不支持实时的数据清洗。 4)存储到hive系统的数据归类不合理,数据没有明显的层级关系,全部从多个源表直接计算输出结果。 另外,原来的同事 阅读全文
posted @ 2018-06-11 11:12 硅谷工具人 阅读(811) 评论(0) 推荐(0)
摘要:参考这里: https://blog.csdn.net/Mark_LQ/article/details/53393081 阅读全文
posted @ 2018-05-18 18:50 硅谷工具人 阅读(450) 评论(0) 推荐(0)
摘要:1. 启动脚本 2. 配置说明 jobhistory用于查询每个job运行完以后的历史日志信息,是作为一台单独的服务器运行的。可以在namenode或者datanode上的任意一台启动即可。 默认的配置如下,但是需要手工修改为我们指定的那台服务器。 参数配置在mapred-site.xml文件中。如 阅读全文
posted @ 2018-03-05 16:50 硅谷工具人 阅读(7768) 评论(0) 推荐(0)
摘要:在分析DataNode时, 因为DataNode上保存的是数据块, 因此DataNode主要是对数据块进行操作. A. DataNode的主要工作流程1. 客户端和DataNode的通信: 客户端向DataNode的`数据块读写`, 采用TCP/IP流接口(DataXceiver)进行数据传输 2. 阅读全文
posted @ 2018-03-02 11:35 硅谷工具人 阅读(1324) 评论(0) 推荐(0)
摘要:一、介绍默认Yarn NodeManager重启后会断开所有当前正在运行的container的状态,这意味着重启后需要重新启动container进程,该特性的作用就是把NM的状态临时保存到本地,重启后从之前的状态恢复运行。 二、配置 配置以下三个参数到conf/yarn-site.xml中1、yar 阅读全文
posted @ 2018-03-02 11:02 硅谷工具人 阅读(3044) 评论(0) 推荐(0)
摘要:在运行中的ambari hadoop集中中动态添加或删除节点 1. 下线节点1) namenode节点上dfs.exclude文件,看配置文件怎么配置的,里每行添加一个服务器名,如我要下线server7,server8,server9,则如下:server7server8 resourcemanag 阅读全文
posted @ 2018-03-02 09:18 硅谷工具人 阅读(3307) 评论(1) 推荐(0)

成功之道,在于每个人生阶段都要有不同的目标,并且通过努力实现自己的目标,毕竟人生不过百年! 所有奋斗的意义在于为个人目标实现和提升家庭幸福,同时能推进社会进步和国家目标! 正如古人讲的正心诚意格物致知,修身齐家治国平天下。