会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
lkd0910
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
2022年11月29日
大数据学习之kafka
摘要: kafka是一个分布式的基于发布/订阅模式的消息队列,只要应用于大数据实时处理领域 消息队列的两种模式: 点对点模式(一对一 消费者主动拉取数据,消息收到后消息清除) 发布/订阅的模式(一对多 消费者消费数据后不会清除数据) kafka基础架构(去中心化) producer:消息生产者,就是向kaf
阅读全文
posted @ 2022-11-29 21:37 先生小凯
阅读(68)
评论(0)
推荐(0)
2022年11月28日
大数据学习之HDFS
摘要: HDFS是一个分布式文件存储系统,适合一次写入,多次写出,且不支持文件修改 结构: NameNode(NN):就是master 他是一个管理者 1、管理HDFS的命名空间 2、配置副本策略 3、管理数据块映射信息 4、处理客户端读写请求 DataNode(DN):就是salve NameNode下达
阅读全文
posted @ 2022-11-28 21:58 先生小凯
阅读(165)
评论(0)
推荐(0)
大数据学习之MapReduce
摘要: MapReduce是一个分布式运算程序的编程框架,其核心功能是将用户编写的业务逻辑代码和自身的组件整合成 一个完整的分布式运算程序 并发运行在一个hadoop集群上 优点: 1、易于编程 实现一些简单的接口就可以实现一个分布式车程序 2、良好的扩展性 可以通过简单的扩充机器来扩展计算能力 3、高容错
阅读全文
posted @ 2022-11-28 21:52 先生小凯
阅读(127)
评论(0)
推荐(0)
大数据学习之Hadoop
摘要: Hadoop是一个支持海量数据的分布式存储和分布式计算的平台 包含: HDFS YARN MapReduce 分布式管理系统(HDFS) 主要就是把数据存放在多态服务器上 是MapReduce的基础 文件切分 文件存放在一个磁盘上效率是最低的 读取效率低 文件特别大会超出单击的存储范围 文件磁盘上以
阅读全文
posted @ 2022-11-28 21:41 先生小凯
阅读(33)
评论(0)
推荐(0)
2022年11月25日
Spark MLLib机器学习入门
摘要: 机器学习 构建机器学习的第一步:数据特征工程,将数据转化成机器学习的模型 //构建向量 基础部分 Spark中一共有两类向量:稠密向量,稀疏向量 1 稠密向量 2 val denseVec: linalg.Vector = Vectors.dense(Array(1..0,2.0,3.0,4.0,5
阅读全文
posted @ 2022-11-25 21:11 先生小凯
阅读(152)
评论(0)
推荐(0)
上一页
1
2
公告