摘要:
数据来源层 数据库 日志 视频,ppt 数据传输层 Sqoop数据传递 Flume日志收集 kafka消息队列 数据存储层 HDFS文件存储 HBase非关系型数据库 kafka(存储少量数据) 资源管理层 YARN资源管理 数据计算层 MapReduce离线计算 Hive数据查询 Mahout数据 阅读全文
posted @ 2020-06-21 23:00
阿布都日
阅读(136)
评论(0)
推荐(0)
摘要:
Map阶段并行处理输入数据 Reduce阶段对Map结果进行汇总 阅读全文
posted @ 2020-06-21 22:46
阿布都日
阅读(123)
评论(0)
推荐(0)
摘要:
主机1:ResourceManager 处理客户端请求 监控NodeManager 启动或监控ApplicationMaster(干的活儿,单个任务) 资源的分配与调度 主机2:NodeManager 管理单个节点上的资源 处理ResourceManager的命令 处理ApplicationMase 阅读全文
posted @ 2020-06-21 22:42
阿布都日
阅读(151)
评论(0)
推荐(0)
摘要:
NameNode 存储文件元数据(文件名,目录结构,文件属性,文件块列表,块所在DataNode) DataNode 文件块数据+数据校验和 Secondary NameNode 监控HDFS状态的后台程序 阅读全文
posted @ 2020-06-21 22:30
阿布都日
阅读(140)
评论(0)
推荐(0)
摘要:
1.x MapReduce:计算+调度 HDFS:数据存储 Common:辅助工具 2.x MapReduce:计算 Yarn:资源调度 HDFS:数据存储 Common:辅助工具 阅读全文
posted @ 2020-06-21 22:26
阿布都日
阅读(190)
评论(0)
推荐(0)
摘要:
全文搜索引擎架构 阅读全文
posted @ 2020-06-21 22:11
阿布都日
阅读(130)
评论(0)
推荐(0)
摘要:
Hadoop 分布式系统基础结构 海量数据存储,海量数据计算 Hadoop指的是Hadoop生态圈 Google=》Hadoop GFS->HDFS Map-Reduce->MR BigTable->HBase Hadoop发行版本 Apache:最基础 Cloudera:大型互联网企业 Horto 阅读全文
posted @ 2020-06-21 22:08
阿布都日
阅读(84)
评论(0)
推荐(0)
摘要:
平台组 框架平台搭建 Hadoop flume kafka hbase spark 集群性能监控 集群性能调优 数据仓库组 ETL工程师-数据清洗(实习生) Hive工程师-数据分析,数据仓库建模 数据挖掘组 算法工程师 推荐系统工程师 用户画像工程师 报表开发组 JavaEE工程师 阅读全文
posted @ 2020-06-21 22:05
阿布都日
阅读(2279)
评论(0)
推荐(0)
摘要:
产品人员(提需求)==》数据部门(搭平台,分析数据指标)==》数据可视化(报表,邮件,大屏幕) 阅读全文
posted @ 2020-06-21 21:49
阿布都日
阅读(135)
评论(0)
推荐(0)
摘要:
++定义++ 常规软件无法在规定时间内处理完成的数据(需要用集群处理完成) ++特点++ Volume:大量 Velocity:高速 Variety:多样性 Value:低价值密度 bit Byte KB MB GB TB PB EB ZB YB BB NB DB 阅读全文
posted @ 2020-06-21 21:31
阿布都日
阅读(98)
评论(0)
推荐(0)

浙公网安备 33010602011771号