先生小凯 - 博客园

2022年11月29日

摘要： kafka是一个分布式的基于发布/订阅模式的消息队列，只要应用于大数据实时处理领域消息队列的两种模式：点对点模式(一对一消费者主动拉取数据，消息收到后消息清除) 发布/订阅的模式(一对多消费者消费数据后不会清除数据) kafka基础架构(去中心化) producer:消息生产者，就是向kaf 阅读全文

posted @ 2022-11-29 21:37 先生小凯阅读(80) 评论(0) 推荐(0)

2022年11月28日

大数据学习之HDFS

摘要： HDFS是一个分布式文件存储系统，适合一次写入，多次写出，且不支持文件修改结构： NameNode(NN):就是master 他是一个管理者 1、管理HDFS的命名空间 2、配置副本策略 3、管理数据块映射信息 4、处理客户端读写请求 DataNode(DN):就是salve NameNode下达阅读全文

posted @ 2022-11-28 21:58 先生小凯阅读(178) 评论(0) 推荐(0)

大数据学习之MapReduce

摘要： MapReduce是一个分布式运算程序的编程框架，其核心功能是将用户编写的业务逻辑代码和自身的组件整合成一个完整的分布式运算程序并发运行在一个hadoop集群上优点： 1、易于编程实现一些简单的接口就可以实现一个分布式车程序 2、良好的扩展性可以通过简单的扩充机器来扩展计算能力 3、高容错阅读全文

posted @ 2022-11-28 21:52 先生小凯阅读(141) 评论(0) 推荐(0)

大数据学习之Hadoop

摘要： Hadoop是一个支持海量数据的分布式存储和分布式计算的平台包含: HDFS YARN MapReduce 分布式管理系统（HDFS）主要就是把数据存放在多态服务器上是MapReduce的基础文件切分文件存放在一个磁盘上效率是最低的读取效率低文件特别大会超出单击的存储范围文件磁盘上以阅读全文

posted @ 2022-11-28 21:41 先生小凯阅读(45) 评论(0) 推荐(0)

2022年11月25日

Spark MLLib机器学习入门

摘要：机器学习构建机器学习的第一步：数据特征工程，将数据转化成机器学习的模型 //构建向量基础部分 Spark中一共有两类向量：稠密向量，稀疏向量 1 稠密向量 2 val denseVec: linalg.Vector = Vectors.dense(Array(1..0,2.0,3.0,4.0,5 阅读全文

posted @ 2022-11-25 21:11 先生小凯阅读(163) 评论(0) 推荐(0)

公告