• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
IT小蛀虫
博客园    首页    新随笔    联系   管理    订阅  订阅
04 2019 档案
HDFS组件性能调优:数据平衡

摘要:生产系统中什么情况下会添加一个节点呢? 1 增加存储能力 disk 2 增加计算能力 cpu mem 如果增加是的是存储能力,说明存储已接近饱和或者说过段时间就会没有剩余的空间给作业来用。新加的节点存储水平跟之前的节点是不匹配的,只有很少量的数据。这种情况就要对HDFS的数据做一次平衡,使他们达到一 阅读全文
posted @ 2019-04-07 20:19 IT小蛀虫 阅读(696) 评论(0) 推荐(0)
Hadoop集群故障诊断

摘要:集群故障诊断通行方法:1.cloudera manager 监控和管理软件本身出问题了(没有任何数据),集群还是好的,业务还在正常跑;2.监控软件是好的,从监控里发现了很多问题,如CPU飙高、内存飙高; Apache网站上由类似于cloudera manager的 Ambari (web-base 阅读全文
posted @ 2019-04-07 20:19 IT小蛀虫 阅读(457) 评论(0) 推荐(0)
Hadoop多租户架构配置

摘要:cloudera manager 进到cluster里面,点击Dynamic Resource Pools,没做任何配置默认情况下,资源池里有个default资源组 hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar 阅读全文
posted @ 2019-04-07 20:18 IT小蛀虫 阅读(2540) 评论(0) 推荐(0)
Yarn 组件的指挥部 – 调度器Scheduler

摘要:linux基础 为hadoop集群的搭建扫清了障碍,也为内存的管理,文件系统的管理扫清了障碍 接着到Hadoop的阶段,首先做集群的安装,深入到使用这两个核心的组件,分布式文件系统HDFS,解决大量数据怎么存储的问题,第二个就是分布式计算MapReduce。MapReduce的包含Yarn和MapR 阅读全文
posted @ 2019-04-07 20:17 IT小蛀虫 阅读(205) 评论(0) 推荐(0)
HDFS之HA

摘要:HDFS高可用环境HA的架构 HDFS组件由一个对外提供服务的namenode(存储元数据)和N个datanode组成;Zookeeper有三个作用:1.为了统一配置文件 config 2.多个节点的进程要修改公共变量的话,zookeeper会加一个锁 3.仲裁 (必须是奇数个节点,自己组成一个集群 阅读全文
posted @ 2019-04-07 20:15 IT小蛀虫 阅读(340) 评论(0) 推荐(0)
性能监控和故障诊断

摘要:1.Zookeeper:分布式协调服务(资源协调器) 产生动机:同一台主机有进程间通信、线程间通信,集群多主机间内存区域是不共享的,Zookeeper用来协调(如何对一件事情做决定:仲裁作用,选举leader/master)、同步信息(公共变量共享的数据、配置文件)。Cloudera manager 阅读全文
posted @ 2019-04-02 22:56 IT小蛀虫 阅读(343) 评论(0) 推荐(0)
hadoop集群的规划和搭建

摘要:1.操作系统版本:CentOS 6 CM版本:CM5.x CDH版本:CDH5.x 2.安装操作系统,对系统盘做 RAID1; 配置静态IP、hostname信息:vim /etc/sysconfig/network-scripts/ifcfg-eth0 并配置所有节点的静态DNS解析: vim / 阅读全文
posted @ 2019-04-02 21:58 IT小蛀虫 阅读(972) 评论(0) 推荐(0)
业务应用与技术需求

摘要:1.交通--智能交通:对车流量等海量数据收集、估算,预测该路段一定时间内车流量情况,给用户提供便利<Hadoop 开发、数据质量稽查、数据可视化、数据分析> 2.教育--在线私教:通过对学员每个阶段的学习,评测反馈,综合大数据的知识节点分析,实现真正一对一因材施教 <数据仓库、数据挖掘、ETL、机器 阅读全文
posted @ 2019-04-02 21:01 IT小蛀虫 阅读(318) 评论(0) 推荐(0)
1.1大数据平台架构及Hadoop生态圈

摘要:1.硬件架构实例 2.软件架构实例 3.数据流通用概念模型 a.数据源(互联网、物联网、企业数据):App、Device、Site b.数据收集(ETL、提取、转换、加载):Flume、Kafka、Sqoop c.数据存储:HDFS、Hive/HBase d.资源管理:Yarn、Mesos e.批处 阅读全文
posted @ 2019-04-02 20:11 IT小蛀虫 阅读(819) 评论(0) 推荐(0)

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3