wl413911

2019年8月8日

k-means 算法

摘要: 1. scikit-learn中的K-Means类 在scikit-learn中,包括两个K-Means的算法,: (1)传统的K-Means算法,对应的类是KMeans。 (2)基于采样的Mini Batch K-Means算法,对应的类是MiniBatchKMeans。 一般来说,K-Means 阅读全文

posted @ 2019-08-08 22:03 wl413911 阅读(273) 评论(0) 推荐(0) 编辑
支持向量机(SVM)

摘要: 一、概念 1、分离超平面:空间内能够将数据分为不同类别的平面 2、线性可分:不同类别数据能够被一个超平面完全分开 3、损失项:模型在数据上违反自身分类原则的程度(是一个求和项) 4、损失系数:损失项的系数(是一个超参数,由模型给定) 5、损失函数L = min (1/2*(||w||)2) + C* 阅读全文

posted @ 2019-08-08 15:22 wl413911 阅读(178) 评论(0) 推荐(0) 编辑

2019年2月27日

MapReduce(二) MR的高级特性-序列化、排序、分区、合并

摘要: 一、序列化 (*) 核心接口:Writable接口。如果有一个类实现了Writable接口,就可以作为Map/Reduce的key和value. 举例: 读取员工数据,生成员工对象,直接存储在HDFS 序列化的顺序和反序列化 的顺序要保持相同。 public void readFields(Data 阅读全文

posted @ 2019-02-27 18:39 wl413911 阅读(425) 评论(0) 推荐(0) 编辑

2019年2月23日

HDFS(二) 底层通信原理——RPC 及 动态代理

摘要: 一、RPC(Remote Procedure Call ) :远程过程调用 1、RPC是远程过程调用协议,实现调用者和被调用者二地之间的连接和通信。其基本通信模型是基于client/server进程间相互通信模型 ,如图1所示。 图 1 使用RPC调用完成远程调用示意图 2、利用HADOOP的RPC 阅读全文

posted @ 2019-02-23 13:04 wl413911 阅读(413) 评论(0) 推荐(0) 编辑

2019年2月22日

HDFS(一) 高级特性

摘要: 三个高级特性——快照、配额、回收站 一、快照(snapshot):是一种备份,默认关闭 1、应用场景: 防止用户错误操作 备份 试验/测试 灾难恢复 2、命令: 管理命令: -allowsnapshot -disallowsnapshot 操作命令: -createshapshot 举例: 打开快照 阅读全文

posted @ 2019-02-22 20:29 wl413911 阅读(242) 评论(0) 推荐(0) 编辑

2019年2月14日

UML类图中最重要的几种类关系及其表示

摘要: 阅读UML图最常见到的类与类之间的关系有如下几种: 1、依赖关系 依赖关系是指一个类在计算时,应用了“另一个类”类型的参数,这种关系是偶然、临时、弱的。 UML类图中,依赖关系用带单箭头的虚线表示,即A类 >B类,表示A类中的某个方法,引用了B类类型的值作为参数,但是B类的变化会影响到A类 2、关联 阅读全文

posted @ 2019-02-14 20:42 wl413911 阅读(1266) 评论(0) 推荐(0) 编辑