随笔分类 -  机器学习

文本分类基本流程
摘要:参考链接:https://blog.csdn.net/qq_16912257/article/details/52994788 阅读全文
posted @ 2018-11-12 19:27 小小八 阅读(1447) 评论(0) 推荐(0)
TF-IDF特征选择
摘要: 阅读全文
posted @ 2018-11-12 19:24 小小八 阅读(583) 评论(0) 推荐(0)
卡方检验应用-特征选择
摘要:学习链接:https://www.cnblogs.com/dacc123/p/8746247.html 阅读全文
posted @ 2018-11-12 16:49 小小八 阅读(835) 评论(0) 推荐(0)
weka安装&配置&使用
摘要:安装与配置: 官网下载安装即可,分为带jre和不带jre版本,3.8需要jre1.8。如果装了1.7的话,还是自己先装一个1.8再装不带jre版本的比较好,不然weka装的会让人一脸懵逼,不知道装在哪里了。 环境变量配置WEKAROOT和CLASSPATH。似乎要连mysql的话需要继续配置,目前还 阅读全文
posted @ 2018-11-03 21:53 小小八 阅读(3040) 评论(0) 推荐(0)
scrapy 入门爬取新闻
摘要:为文本分类实验爬取数据集,要求一百万,分类>10类。 参考链接:http://litianyi.cc/technology/2015/12/01/text-classification-1/ 文档:https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/ 阅读全文
posted @ 2018-11-03 21:42 小小八 阅读(464) 评论(0) 推荐(0)
SGD、GD
摘要:GD参考: https://blog.csdn.net/CharlieLincy/article/details/70767791 SGD参考:https://blog.csdn.net/CharlieLincy/article/details/71082147 关于SGD,博主的第二个问题。 GD 阅读全文
posted @ 2018-10-20 17:17 小小八 阅读(1557) 评论(0) 推荐(0)
决策树
摘要:参考:https://blog.csdn.net/baimafujinji/article/details/51724371 https://blog.csdn.net/baimafujinji/article/details/53239581 需要整理Gini值和熵的计算公式。ID3和C4.5的区 阅读全文
posted @ 2018-10-17 20:20 小小八 阅读(185) 评论(0) 推荐(0)
卡方分布(Chi-Square Distribution):
摘要:定义:如果我们的随机变量是标准正态分布(详见以前博客的高斯分布),那么多个随机变量的平方和服从的分布即为卡方分布。 X=Y12+Y22+⋯+Yn2 其中,Y1,Y2,⋯,Yn均为服从标准正态分布的随机变量,那么XX服从卡方分布,值得注意的是其中的nn即随机变量的个数成为卡方分布的自由度。概率密度函数 阅读全文
posted @ 2018-10-13 11:58 小小八 阅读(14706) 评论(0) 推荐(0)
PCA算法数学原理及实现
摘要:数学原理参考:https://blog.csdn.net/aiaiai010101/article/details/72744713 实现过程参考:https://www.cnblogs.com/eczhou/p/5435425.html 两篇博文都写的透彻明白。 自己用python实现了一下,有几 阅读全文
posted @ 2018-10-13 11:39 小小八 阅读(1102) 评论(0) 推荐(0)
PCA算法
摘要:1. 引言 降维是对数据高维度特征的一种预处理方法。降维是将高纬度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以节省大量的时间和成本。 PCA(principal compount analysis),即主 阅读全文
posted @ 2018-10-07 22:14 小小八 阅读(3410) 评论(0) 推荐(0)
coursera-斯坦福-机器学习-吴恩达-笔记week4
摘要:1 神经网络的提出 线性回归和逻辑回归能很好的解决特征变量较少的问题,但对于变量数量增加的复杂非线性问题,单纯增加二次项和三次项等特征项的方法计算代价太高。 2 神经网络算法 2.1 神经元 模拟神经元的模型: 模型的参数即模型的去权重。 2.2 神经网络 如图是一个三层神经网络模型,第一层为输入层 阅读全文
posted @ 2018-09-28 11:00 小小八 阅读(197) 评论(0) 推荐(0)
coursera-斯坦福-机器学习-吴恩达-笔记week3
摘要:1 逻辑回归 1. classification 分类 eg:垃圾邮件分类、交易是否是欺诈、肿瘤类别。分类的结果是离散值。 2. sigmoid函数 使用线性方法来判断分类问题,会出现上图中的问题,需要人工判断分界点。有些特殊的样本点,也会使得分界点发生漂移,影响准确性。我们希望我们的分类器输出范围 阅读全文
posted @ 2018-09-24 12:14 小小八 阅读(531) 评论(0) 推荐(0)
coursera-斯坦福-机器学习-吴恩达-笔记week2
摘要:1 多元线性回归 1.1 假设函数 多元线性回归是指有多个特征特征变量的情况。此时我们修改假设函数hθ(x)=θ0+θ1∗x为hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxn。设x0=1,x为特征向量,θ为参数向量,则hθ(x)=θTx。 1.2 cost function与梯度下降 cost函数 阅读全文
posted @ 2018-09-22 21:31 小小八 阅读(343) 评论(0) 推荐(0)
coursera-斯坦福-机器学习-吴恩达-笔记week1
摘要:1 Introduction 1.1 概念:一个程序被认为能从经验E中学习,解决任务 T,达到性能度量值P,当且仅当, 有了经验E后,经过P评判, 程序在处理 T 时的性能有所提升。 1.2 机器学习分类:监督学习 supervised learning : 回归(regression)、分类(cl 阅读全文
posted @ 2018-09-19 11:24 小小八 阅读(259) 评论(0) 推荐(0)