hadoop - 随笔分类 - 硅谷工具人

(实验性质的) hadoop fsck健康检查副本异常信息Target Replicas is 3 but found 2 live replica(s)

摘要：之前下架过节点，导致副本数量不全，再做健康检查时，发现许多这样的信息。当然这样的信息并不是一定有问题，比如以下目录副本数就只有一个；执行的flink的任务时，/flink/job/目录 hbase的一些tmp临时目录 /hbase/tmp 上传的jar包程序 /jars/ Under repli 阅读全文

posted @ 2022-12-01 15:58 硅谷工具人阅读(300) 评论(0) 推荐(0)

hadoop节点下线的问题

摘要：~~注意：以下操作都是理论上的，由于我安装的是apache hadoop3.1.3 原生版本，所以按照以下操作时，全部不生效~~ ~~最后只能通过手工停止datanode，nodemanger，停止节点。~~ ~~然后修改works，在HA模式下，先停1个namenode，然后重启。再停另外个nam 阅读全文

posted @ 2022-11-29 15:01 硅谷工具人阅读(207) 评论(0) 推荐(0)

Hadoop单个节点的磁盘均衡

摘要：hadoop如果一个节点内有新增磁盘或者数据出现在磁盘上不均衡时，需要做磁盘均衡，就是将其他已经写入数据的磁盘均衡到新增加的磁盘上去，大概分为以下三个步骤，计划，执行，查询：一般默认都开启了磁盘均衡，但是我这种状况特殊，公司给的初始磁盘大小不一样。。。我也没辙。。我只是试验下，我这种情况能否做数据阅读全文

posted @ 2022-11-17 10:27 硅谷工具人阅读(159) 评论(0) 推荐(0)

如何在大数据集群中手工增加一个节点

摘要：当运维丢给你一台新装的操作系统，本文将记录手工添加一个节点需要做哪些具体的操作，当前的版本是apache hadoop，未使用CDH版本。 1 系统环境设置 1.1 修改hostname 根据IP设置对应节点的名称，比如增加一个192.168.1.130节点作为数据节点。临时设置：hostname 阅读全文

posted @ 2022-09-17 10:57 硅谷工具人阅读(119) 评论(0) 推荐(0)

查看hdfs上某个表目录下文件的大小

摘要：hdfs dfs -du -s -h /user/hive/warehouse/xy_ods.db/ods_test/pk_year=2021/pk_month=2021-12/pk_day=2021-12-30 如果需要截取前面的文件大小413.0G,还需要添加截取功能。 hdfs dfs -du 阅读全文

posted @ 2022-06-21 19:51 硅谷工具人阅读(505) 评论(0) 推荐(0)

hadoop配置在线刷新

摘要：动态刷新hdfs配置：hdfs dfsadmin -fs hdfs://nn1:8020 -refreshSuperUserGroupsConfigurationhdfs dfsadmin -fs hdfs://nn2:8020 -refreshSuperUserGroupsConfiguratio 阅读全文

posted @ 2021-09-07 12:35 硅谷工具人阅读(337) 评论(0) 推荐(0)

NTP时钟同步配置

摘要：NTP在Linux下有两种时钟同步方式：直接同步(也称跳跃同步)和平滑同步(也称微调同步)。直接同步使用ntpdate命令进行同步，直接进行时间变更。如果服务器上存在一个12点运行的任务，当前服务器时间是13点，但标准时间时11点，使用此命令可能会造成任务重复执行。因此使用ntpdate同步阅读全文

posted @ 2019-07-23 12:47 硅谷工具人阅读(14757) 评论(3) 推荐(0)

学习笔记:The Log(我所读过的最好的一篇分布式技术文章)

摘要：前言这是一篇学习笔记。学习的材料来自Jay Kreps的一篇讲Log的博文。原文非常长。可是我坚持看完了，收获颇多，也深深为Jay哥的技术能力、架构能力和对于分布式系统的理解之深刻所折服。同一时候也由于某些理解和Jay哥观点吻合而略沾沾自喜。 Jay Kreps是前Linkedin的Princ 阅读全文

posted @ 2019-04-11 14:07 硅谷工具人阅读(619) 评论(0) 推荐(1)

hdfs清空回收站

摘要：1. 直接删除目录(不放入回收站) 2. 清空回收站阅读全文

posted @ 2018-11-06 10:12 硅谷工具人阅读(1524) 评论(0) 推荐(0)

CDH版本java开发环境搭建

摘要：1. maven设置除了阿里云库，还需要引入 cdh, spring库。需要修改maven下面的配置文件setting.xml, 参考下面设置。 2. 在项目文件pom.xml中引入的是cdh对应版本的包设置cdh库，spring库。依赖包需要加入cdh版本的其他的依赖包正常添加即可。附上阅读全文

posted @ 2018-11-01 20:01 硅谷工具人阅读(2059) 评论(0) 推荐(0)

大数据学习目录

摘要：推荐 1、gitbook 这里可以找到优秀的文章及书籍 2、about云大数据论坛，网站上很多大数据资料 hadoop 博文： 1、Hadoop2.x集群安装配置笔记初学搭建hadoop 2、搭建hadoop2.6.0 HDFS HA及YARN HA 启动hadoopHA容灾机制 3、Cloud 阅读全文

posted @ 2018-10-26 11:58 硅谷工具人阅读(448) 评论(0) 推荐(0)

简单的Http请求数据保存到Hdfs

摘要：使用okhttp工具集来开发：（如果文件已经存在会报错）配置启动脚本如下：阅读全文

posted @ 2018-10-09 20:13 硅谷工具人阅读(1044) 评论(0) 推荐(0)

hadoop脑裂

摘要：今天修改了和journalNode通信的zookeeper配置，原来没有打开zookeeper动态清理快照的功能。所以3台zookeeper节点，每台修改完配置后，然后重启了下zookeeper服务。然后就发现hadoop集群发生脑裂了，并且两台namenode节点都是standby状态。经过阅读全文

posted @ 2018-06-27 14:50 硅谷工具人阅读(821) 评论(0) 推荐(0)

hadoop rebalance

摘要：之前一直没做过rebalance，以为速度很快，结果大意了，等到磁盘达到90%的时候，才开始做rebalance。默认的从日志中可以看到总共需要迁移1.89T，但是每次只移动40G大小的量。然后查看40G的数据量从15:45分到15:48分，所以结算结果为每分钟13G,每秒228M左右。(感觉这阅读全文

posted @ 2018-06-25 15:53 硅谷工具人阅读(1734) 评论(0) 推荐(0)

大数据架构

摘要：前几个月进行的大数据架构的升级：原来的大数据集群的状况如下： 1）主从模式，从多个日志源采集后， 2）接收端只用了1个flume接收，存储到hdfs上。 3）并不支持实时的数据清洗。 4）存储到hive系统的数据归类不合理，数据没有明显的层级关系，全部从多个源表直接计算输出结果。另外，原来的同事阅读全文

posted @ 2018-06-11 11:12 硅谷工具人阅读(812) 评论(0) 推荐(0)

hadoop2.7节点的动态增加与删除

摘要：参考这里： https://blog.csdn.net/Mark_LQ/article/details/53393081 阅读全文

posted @ 2018-05-18 18:50 硅谷工具人阅读(452) 评论(0) 推荐(0)

hadoop中的Jobhistory历史服务器

摘要：1. 启动脚本 2. 配置说明 jobhistory用于查询每个job运行完以后的历史日志信息，是作为一台单独的服务器运行的。可以在namenode或者datanode上的任意一台启动即可。默认的配置如下，但是需要手工修改为我们指定的那台服务器。参数配置在mapred-site.xml文件中。如阅读全文

posted @ 2018-03-05 16:50 硅谷工具人阅读(7775) 评论(0) 推荐(0)

datanode与namenode的通信

摘要：在分析DataNode时, 因为DataNode上保存的是数据块, 因此DataNode主要是对数据块进行操作. A. DataNode的主要工作流程1. 客户端和DataNode的通信: 客户端向DataNode的`数据块读写`, 采用TCP/IP流接口(DataXceiver)进行数据传输 2. 阅读全文

posted @ 2018-03-02 11:35 硅谷工具人阅读(1326) 评论(0) 推荐(0)

Yarn NodeManager restart

摘要：一、介绍默认Yarn NodeManager重启后会断开所有当前正在运行的container的状态，这意味着重启后需要重新启动container进程，该特性的作用就是把NM的状态临时保存到本地，重启后从之前的状态恢复运行。二、配置配置以下三个参数到conf/yarn-site.xml中1、yar 阅读全文

posted @ 2018-03-02 11:02 硅谷工具人阅读(3050) 评论(0) 推荐(0)

hadoop上线和下线节点

摘要：在运行中的ambari hadoop集中中动态添加或删除节点 1. 下线节点1) namenode节点上dfs.exclude文件，看配置文件怎么配置的，里每行添加一个服务器名，如我要下线server7,server8,server9,则如下：server7server8 resourcemanag 阅读全文

posted @ 2018-03-02 09:18 硅谷工具人阅读(3310) 评论(1) 推荐(0)

时间的往事

所有命运赠送的礼物，早已在暗中标着价格。

随笔分类 - hadoop

公告