随笔分类 -  机器学习

努力学吧
摘要:简介 GloVe是一种非常简单快速的训练词向量的算法。与复杂的word2vec相比,其是一个log双线性模型,仅通过一个简单的损失函数就能够得到很好的结果。 (1)J=∑i,jNf(Xi,j)(viTvj+bi+bj−log(Xi,j))2 其中,vi和vj是i和j的词向量,bi和bj是两个偏差项, 阅读全文
posted @ 2018-04-07 12:57 mrbean 阅读(1223) 评论(0) 推荐(0)
摘要:问题 安装上graphviz和pydot之后调用出现如下问题 解决方案 其实这里是存在一些依赖关系的,首先我们需要安装graphviz的python接口,然后安装graphviz软件本身,最后安装pydot 在Ubuntu下即: 阅读全文
posted @ 2018-01-21 15:47 mrbean 阅读(1056) 评论(0) 推荐(0)
摘要:#感知机(perceptron)##模型:简答的说由输入空间(特征空间)到输出空间的如下函数:$$f(x)=sign(w\cdot x+b)$$称为感知机,其中,$w$和$b$表示的是感知机模型参数,$w \in R^n$叫做权值,$b \in R$叫做偏置(bias)感知机是一种线性分类模型属于判... 阅读全文
posted @ 2015-04-15 14:24 mrbean 阅读(8949) 评论(0) 推荐(1)
摘要:协同过滤(collaborative filtering)推荐系统:百度百科的定义是:它是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程主要有有以下几种推荐的方式:基于内容的推荐协同过滤关联推荐混合推荐协同过滤这里我们主要考虑的是协同过滤,这... 阅读全文
posted @ 2014-12-13 00:12 mrbean 阅读(3903) 评论(0) 推荐(1)
摘要:SVD(Singular Value Decomposition,奇异值分解)算法优缺点:优点:简化数据,去除噪声,提高算法结果缺点:数据的转换可能难于理解适用数据类型:数值型数据算法思想:很多情况下,数据的一小部分包含了数据的绝大部分信息,线性代数中有很多矩阵的分解技术可以将矩阵表示成新的易于处理... 阅读全文
posted @ 2014-12-12 00:06 mrbean 阅读(7662) 评论(0) 推荐(0)
摘要:Principal Component Analysis算法优缺点:优点:降低数据复杂性,识别最重要的多个特征缺点:不一定需要,且可能损失有用的信息适用数据类型:数值型数据算法思想:降维的好处:使得数据集更易使用降低很多算法计算开销去除噪声使得结果易懂主成分分析(principal componen... 阅读全文
posted @ 2014-12-10 23:25 mrbean 阅读(2759) 评论(3) 推荐(0)
摘要:机器学习实战笔记索引 最近通过学习《机器学习实战》把书结合网上的一些博客都完整的看了下,感觉还是很有收获的,稍微总结了下,留着复习吧 "kNN算法python实现和简单数字识别" "决策树的python实现" "朴素贝叶斯算法的python实现" "Logistic回归 python实现" "Log 阅读全文
posted @ 2014-12-10 18:57 mrbean 阅读(2068) 评论(0) 推荐(2)
摘要:FP-growth算法优缺点:优点:一般快于Apriori缺点:实现比较困难,在某些数据上性能下降适用数据类型:标称型数据算法思想:FP-growth算法是用来解决频繁项集发现问题的,这个问题再前面我们可以通过Apriori算法来解决,但是虽然利用Apriori原理加快了速度,仍旧是效率比较低的。F... 阅读全文
posted @ 2014-12-09 23:55 mrbean 阅读(3514) 评论(0) 推荐(2)
摘要:Apriori算法优点:易编码实现缺点:在大数据集上可能较慢适用数据类型:数值型或者标称型算法过程:关联分析是一种在大规模数据集中寻找有意思的关系的任务,这里的有意思的关系有两种:频繁项集(frequent item sets)或关联规则(association rules)。支持度(support... 阅读全文
posted @ 2014-12-08 00:27 mrbean 阅读(4756) 评论(0) 推荐(3)
摘要:线性回归算法优缺点:优点:结果易于理解,计算不复杂缺点:对非线性数据拟合不好适用数据类型:数值型和标称型算法思想:这里是采用了最小二乘法计算(证明比较冗长略去)。这种方式的优点是计算简单,但是要求数据矩阵X满秩,并且当数据维数较高时计算很慢;这时候我们应该考虑使用梯度下降法或者是随机梯度下降(同Lo... 阅读全文
posted @ 2014-12-05 23:56 mrbean 阅读(11417) 评论(0) 推荐(1)
摘要:AdaBoost(自适应boosting,adaptive boosting)算法算法优缺点:优点:泛化错误率低,易编码,可用在绝大部分分类器上,无参数调整缺点:对离群点敏感适用数据类型:数值型和标称型元算法(meta algorithm)在分类问题中,我们可能不会只想用一个分类器,我们会考虑将分类... 阅读全文
posted @ 2014-12-04 00:26 mrbean 阅读(4776) 评论(1) 推荐(2)
摘要:二分K-means聚类(bisecting K-means)算法优缺点:由于这个是K-means的改进算法,所以优缺点与之相同。算法思想:1.要了解这个首先应该了解K-means算法,可以看这里这个算法的思想是:首先将所有点作为一个簇,然后将该簇一分为二。之后选择能最大程度降低聚类代价函数(也就是误... 阅读全文
posted @ 2014-11-29 00:33 mrbean 阅读(12132) 评论(0) 推荐(4)
摘要:K-means聚类算法算法优缺点:优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢使用数据类型:数值型数据算法思想k-means算法实际上就是通过计算不同样本间的距离来判断他们的相近关系的,相近的就会放到同一个类别中去。1.首先我们需要选择一个k值,也就是我们希望把数据分成多少类,... 阅读全文
posted @ 2014-11-28 00:53 mrbean 阅读(72284) 评论(8) 推荐(6)
摘要:Logistic回归的使用和缺失值的处理从疝气病预测病马的死亡率数据集:UCI上的数据,368个样本,28个特征测试方法:交叉测试实现细节:1.数据中因为存在缺失值所以要进行预处理,这点待会再单独谈2.数据中本来有三个标签,这里为了简单直接将未能存活和安乐死合并了3.代码中计算10次求均值缺失值的处... 阅读全文
posted @ 2014-11-25 00:26 mrbean 阅读(1995) 评论(0) 推荐(1)
摘要:Logistic回归算法优缺点:1.计算代价不高,易于理解和实现2.容易欠拟合,分类精度可能不高3.适用数据类型:数值型和标称型算法思想:其实就我的理解来说,logistic回归实际上就是加了个sigmoid函数的线性回归,这个sigmoid函数的好处就在于,将结果归到了0到1这个区间里面了,并且s... 阅读全文
posted @ 2014-11-24 00:30 mrbean 阅读(15689) 评论(2) 推荐(1)
摘要:贝叶斯的应用过滤垃圾邮件贝叶斯分类器的著名的应用就是垃圾邮件过滤了,这方面推荐想详细了解的可以去看看《黑客与画家》或是《数学之美》中对应的章节,贝叶斯的基础实现看这里数据集两个文件夹,分别是正常邮件和垃圾邮件,其中各有25封邮件测试方法从50封邮件中随机选取10封做为测试数据实现细节1.首先我们需要... 阅读全文
posted @ 2014-11-19 00:06 mrbean 阅读(5080) 评论(1) 推荐(3)
摘要:朴素贝叶斯算法优缺点优点:在数据较少的情况下依然有效,可以处理多类别问题缺点:对输入数据的准备方式敏感适用数据类型:标称型数据算法思想:朴素贝叶斯比如我们想判断一个邮件是不是垃圾邮件,那么我们知道的是这个邮件中的词的分布,那么我们还要知道:垃圾邮件中某些词的出现是多少,就可以利用贝叶斯定理得到。朴素... 阅读全文
posted @ 2014-11-17 00:28 mrbean 阅读(7892) 评论(2) 推荐(3)
摘要:决策树算法优缺点:优点:计算复杂度不高,输出结果易于理解,对中间值缺失不敏感,可以处理不相关的特征数据缺点:可能会产生过度匹配的问题适用数据类型:数值型和标称型算法思想:1.决策树构造的整体思想:决策树说白了就好像是if-else结构一样,它的结果就是你要生成这个一个可以从根开始不断判断选择到叶子节... 阅读全文
posted @ 2014-11-15 15:45 mrbean 阅读(30751) 评论(1) 推荐(3)
摘要:kNN算法算法优缺点:优点:精度高、对异常值不敏感、无输入数据假定缺点:时间复杂度和空间复杂度都很高适用数据范围:数值型和标称型算法的思路:KNN算法(全称K最近邻算法),算法的思想很简单,简单的说就是物以类聚,也就是说我们从一堆已知的训练集中找出k个与目标最靠近的,然后看他们中最多的分类是哪个,就... 阅读全文
posted @ 2014-11-14 19:28 mrbean 阅读(7211) 评论(0) 推荐(0)