随笔分类 - hadoop
摘要:之前下架过节点,导致副本数量不全,再做健康检查时,发现许多这样的信息。 当然这样的信息并不是一定有问题,比如以下目录副本数就只有一个; 执行的flink的任务时,/flink/job/目录 hbase的一些tmp临时目录 /hbase/tmp 上传的jar包程序 /jars/ Under repli
阅读全文
摘要:~~注意:以下操作都是理论上的,由于我安装的是apache hadoop3.1.3 原生版本,所以按照以下操作时,全部不生效~~ ~~最后只能通过手工停止datanode,nodemanger,停止节点。~~ ~~然后修改works,在HA模式下,先停1个namenode,然后重启。再停另外个nam
阅读全文
摘要:hadoop如果一个节点内有新增磁盘或者数据出现在磁盘上不均衡时,需要做磁盘均衡,就是将其他已经写入数据的磁盘均衡到新增加的磁盘上去,大概分为以下三个步骤,计划,执行,查询: 一般默认都开启了磁盘均衡,但是我这种状况特殊,公司给的初始磁盘大小不一样。。。我也没辙。。我只是试验下,我这种情况能否做数据
阅读全文
摘要:当运维丢给你一台新装的操作系统,本文将记录手工添加一个节点需要做哪些具体的操作,当前的版本是apache hadoop,未使用CDH版本。 1 系统环境设置 1.1 修改hostname 根据IP设置对应节点的名称,比如增加一个192.168.1.130节点作为数据节点。 临时设置:hostname
阅读全文
摘要:hdfs dfs -du -s -h /user/hive/warehouse/xy_ods.db/ods_test/pk_year=2021/pk_month=2021-12/pk_day=2021-12-30 如果需要截取前面的文件大小413.0G,还需要添加截取功能。 hdfs dfs -du
阅读全文
摘要:动态刷新hdfs配置:hdfs dfsadmin -fs hdfs://nn1:8020 -refreshSuperUserGroupsConfigurationhdfs dfsadmin -fs hdfs://nn2:8020 -refreshSuperUserGroupsConfiguratio
阅读全文
摘要:NTP在Linux下有两种时钟同步方式: 直接同步(也称跳跃同步)和平滑同步(也称微调同步)。 直接同步 使用ntpdate命令进行同步,直接进行时间变更。 如果服务器上存在一个12点运行的任务,当前服务器时间是13点,但标准时间时11点,使用此命令可能会造成任务重复执行。因此使用ntpdate同步
阅读全文
摘要:前言 这是一篇学习笔记。 学习的材料来自Jay Kreps的一篇讲Log的博文。 原文非常长。可是我坚持看完了,收获颇多,也深深为Jay哥的技术能力、架构能力和对于分布式系统的理解之深刻所折服。同一时候也由于某些理解和Jay哥观点吻合而略沾沾自喜。 Jay Kreps是前Linkedin的Princ
阅读全文
摘要:1. maven设置 除了阿里云库,还需要引入 cdh, spring库。需要修改maven下面的配置文件setting.xml, 参考下面设置。 2. 在项目文件pom.xml中引入的是cdh对应版本的包 设置cdh库,spring库。 依赖包需要加入cdh版本的 其他的依赖包正常添加即可。 附上
阅读全文
摘要:推荐 1、gitbook 这里可以找到优秀的文章及书籍 2、about云 大数据论坛,网站上很多大数据资料 hadoop 博文: 1、Hadoop2.x集群安装配置笔记 初学搭建hadoop 2、搭建hadoop2.6.0 HDFS HA及YARN HA 启动hadoopHA容灾机制 3、Cloud
阅读全文
摘要:使用okhttp工具集来开发:(如果文件已经存在会报错) 配置启动脚本如下:
阅读全文
摘要:今天修改了和journalNode通信的zookeeper配置,原来没有打开zookeeper动态清理快照的功能。 所以3台zookeeper节点,每台修改完配置后,然后重启了下zookeeper服务。 然后就发现hadoop集群发生脑裂了,并且两台namenode节点都是standby状态。 经过
阅读全文
摘要:之前一直没做过rebalance,以为速度很快,结果大意了,等到磁盘达到90%的时候,才开始做rebalance。 默认的从日志中可以看到总共需要迁移1.89T,但是每次只移动40G大小的量。 然后查看40G的数据量从15:45分到15:48分,所以结算结果为每分钟13G,每秒228M左右。(感觉这
阅读全文
摘要:前几个月进行的大数据架构的升级: 原来的大数据集群的状况如下: 1)主从模式,从多个日志源采集后, 2)接收端只用了1个flume接收,存储到hdfs上。 3)并不支持实时的数据清洗。 4)存储到hive系统的数据归类不合理,数据没有明显的层级关系,全部从多个源表直接计算输出结果。 另外,原来的同事
阅读全文
摘要:参考这里: https://blog.csdn.net/Mark_LQ/article/details/53393081
阅读全文
摘要:1. 启动脚本 2. 配置说明 jobhistory用于查询每个job运行完以后的历史日志信息,是作为一台单独的服务器运行的。可以在namenode或者datanode上的任意一台启动即可。 默认的配置如下,但是需要手工修改为我们指定的那台服务器。 参数配置在mapred-site.xml文件中。如
阅读全文
摘要:在分析DataNode时, 因为DataNode上保存的是数据块, 因此DataNode主要是对数据块进行操作. A. DataNode的主要工作流程1. 客户端和DataNode的通信: 客户端向DataNode的`数据块读写`, 采用TCP/IP流接口(DataXceiver)进行数据传输 2.
阅读全文
摘要:一、介绍默认Yarn NodeManager重启后会断开所有当前正在运行的container的状态,这意味着重启后需要重新启动container进程,该特性的作用就是把NM的状态临时保存到本地,重启后从之前的状态恢复运行。 二、配置 配置以下三个参数到conf/yarn-site.xml中1、yar
阅读全文
摘要:在运行中的ambari hadoop集中中动态添加或删除节点 1. 下线节点1) namenode节点上dfs.exclude文件,看配置文件怎么配置的,里每行添加一个服务器名,如我要下线server7,server8,server9,则如下:server7server8 resourcemanag
阅读全文

浙公网安备 33010602011771号