随笔分类 - Data mining/数据挖掘
数据挖掘经典算法实战,均采用C++编写
摘要:目录大数定律中心极限定理置信区间峰度、偏度检验箱线图单分布卡方拟合检验大数定律 返回目录弱大数定律(辛钦大数定律):设$X_{1},X_{2},\cdots$是相互独立,服从同一分布的随机变量序列,且具有数学期望$E(X_{k})=\mu(k=1,2,\cdots)$,作前 $n$ 个变量的算术平均...
阅读全文
摘要:1.KNN原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中最相似数据(最近邻)的分类标签。一般来说,只选择样本数据集中前 $...
阅读全文
摘要:1.k近邻算法的思想给定一个训练集,对于新的输入实例,在训练集中找到与该实例最近的k个实例,这k个实例中的多数属于某个类,就把该输入实例分为这个类。因为要找到最近的k个实例,所以计算输入实例与训练集中实例之间的距离是关键!k近邻算法最简单的方法是线性扫描,这时要计算输入实例与每一个训练实例的距离,当...
阅读全文
摘要:1.引言许多网站都喜欢让用户点击“喜欢/不喜欢”,“顶/反对”,也正是这种很简单的信息也可以利用起来对用户进行推荐!这里介绍一种基于网络结构的推荐系统!由于推荐系统深深植根于互联网,用户与用户之间,商品与商品之间,用户与商品之间都存在某种联系,把用户和商品都看作节点,他(它)们之间的联系看作是边,那...
阅读全文
摘要:1.引言矩阵分解(Matrix Factorization, MF)是传统推荐系统最为经典的算法,思想来源于数学中的奇异值分解(SVD), 但是与SVD 还是有些不同,形式就可以看出SVD将原始的评分矩阵分解为3个矩阵,而推荐本文要介绍的MF是直接将一个矩阵分解为两个矩阵,一个包含Users 的因子...
阅读全文
摘要:1.引言假如你经营着一家网店,里面卖各种商品(Items),有很多用户在你的店里面买过东西,并对买过的Items进行了评分,我们称之为历史信息,现在为了提高销售量,必须主动向用户推销产品,所以关键是要判断出用户除了已经买过的商品之外还会喜欢哪些商品,这就需要利用用户购买商品过程产生的历史信息。协同过...
阅读全文
摘要:1. 关于ID3和C4.5的原理介绍这里不赘述,网上到处都是,可以下载讲义c9641_c001.pdf或者参考李航的《统计学习方法》.2. 数据与数据处理本文采用下面的训练数据:数据处理:本文只采用了"Outlook", "Humidity", "Windy"三个属性,然后根据Humidity的值是...
阅读全文
摘要:给定训练集$\{x^{(1)},...,x^{(m)}\}$,想把这些样本分成不同的子集,即聚类,$x^{(i)}\in\mathbb{R^{n}}$,但是这是个无标签数据集,也就是说我们再聚类的时候不能利用标签信息,所以这是一个无监督学习问题。k-means聚类算法的流程如下:1. 随机初始化聚类...
阅读全文
浙公网安备 33010602011771号