机器学习 - 随笔分类 - 小小八

文本分类基本流程

摘要：参考链接：https://blog.csdn.net/qq_16912257/article/details/52994788 阅读全文

posted @ 2018-11-12 19:27 小小八阅读(1447) 评论(0) 推荐(0)

TF-IDF特征选择

摘要：阅读全文

posted @ 2018-11-12 19:24 小小八阅读(583) 评论(0) 推荐(0)

卡方检验应用-特征选择

摘要：学习链接：https://www.cnblogs.com/dacc123/p/8746247.html 阅读全文

posted @ 2018-11-12 16:49 小小八阅读(835) 评论(0) 推荐(0)

weka安装&配置&使用

摘要：安装与配置：官网下载安装即可，分为带jre和不带jre版本，3.8需要jre1.8。如果装了1.7的话，还是自己先装一个1.8再装不带jre版本的比较好，不然weka装的会让人一脸懵逼，不知道装在哪里了。环境变量配置WEKAROOT和CLASSPATH。似乎要连mysql的话需要继续配置，目前还阅读全文

posted @ 2018-11-03 21:53 小小八阅读(3040) 评论(0) 推荐(0)

scrapy 入门爬取新闻

摘要：为文本分类实验爬取数据集，要求一百万，分类＞10类。参考链接：http://litianyi.cc/technology/2015/12/01/text-classification-1/ 文档：https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/ 阅读全文

posted @ 2018-11-03 21:42 小小八阅读(464) 评论(0) 推荐(0)

SGD、GD

摘要：GD参考： https://blog.csdn.net/CharlieLincy/article/details/70767791 SGD参考：https://blog.csdn.net/CharlieLincy/article/details/71082147 关于SGD，博主的第二个问题。 GD 阅读全文

posted @ 2018-10-20 17:17 小小八阅读(1557) 评论(0) 推荐(0)

决策树

摘要：参考：https://blog.csdn.net/baimafujinji/article/details/51724371 https://blog.csdn.net/baimafujinji/article/details/53239581 需要整理Gini值和熵的计算公式。ID3和C4.5的区阅读全文

posted @ 2018-10-17 20:20 小小八阅读(185) 评论(0) 推荐(0)

卡方分布（Chi-Square Distribution）：

摘要：定义：如果我们的随机变量是标准正态分布（详见以前博客的高斯分布），那么多个随机变量的平方和服从的分布即为卡方分布。 X=Y12+Y22+⋯+Yn2 其中，Y1,Y2,⋯,Yn均为服从标准正态分布的随机变量，那么XX服从卡方分布，值得注意的是其中的nn即随机变量的个数成为卡方分布的自由度。概率密度函数阅读全文

posted @ 2018-10-13 11:58 小小八阅读(14706) 评论(0) 推荐(0)

PCA算法数学原理及实现

摘要：数学原理参考：https://blog.csdn.net/aiaiai010101/article/details/72744713 实现过程参考：https://www.cnblogs.com/eczhou/p/5435425.html 两篇博文都写的透彻明白。自己用python实现了一下，有几阅读全文

posted @ 2018-10-13 11:39 小小八阅读(1103) 评论(0) 推荐(0)

PCA算法

摘要：1. 引言降维是对数据高维度特征的一种预处理方法。降维是将高纬度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。在实际的生产和应用中，降维在一定的信息损失范围内，可以节省大量的时间和成本。 PCA（principal compount analysis），即主阅读全文

posted @ 2018-10-07 22:14 小小八阅读(3413) 评论(0) 推荐(0)

coursera-斯坦福-机器学习-吴恩达-笔记week4

摘要：1 神经网络的提出线性回归和逻辑回归能很好的解决特征变量较少的问题，但对于变量数量增加的复杂非线性问题，单纯增加二次项和三次项等特征项的方法计算代价太高。 2 神经网络算法 2.1 神经元模拟神经元的模型：模型的参数即模型的去权重。 2.2 神经网络如图是一个三层神经网络模型，第一层为输入层阅读全文

posted @ 2018-09-28 11:00 小小八阅读(197) 评论(0) 推荐(0)

coursera-斯坦福-机器学习-吴恩达-笔记week3

摘要：1 逻辑回归 1. classification 分类 eg：垃圾邮件分类、交易是否是欺诈、肿瘤类别。分类的结果是离散值。 2. sigmoid函数使用线性方法来判断分类问题，会出现上图中的问题，需要人工判断分界点。有些特殊的样本点，也会使得分界点发生漂移，影响准确性。我们希望我们的分类器输出范围阅读全文

posted @ 2018-09-24 12:14 小小八阅读(531) 评论(0) 推荐(0)

coursera-斯坦福-机器学习-吴恩达-笔记week2

摘要：1 多元线性回归 1.1 假设函数多元线性回归是指有多个特征特征变量的情况。此时我们修改假设函数hθ(x)=θ0+θ1∗x为hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxn。设x0=1，x为特征向量，θ为参数向量，则hθ(x)=θTx。 1.2 cost function与梯度下降 cost函数阅读全文

posted @ 2018-09-22 21:31 小小八阅读(344) 评论(0) 推荐(0)

coursera-斯坦福-机器学习-吴恩达-笔记week1

摘要：1 Introduction 1.1 概念：一个程序被认为能从经验E中学习，解决任务 T，达到性能度量值P，当且仅当, 有了经验E后，经过P评判，程序在处理 T 时的性能有所提升。 1.2 机器学习分类：监督学习 supervised learning : 回归（regression）、分类（cl 阅读全文

posted @ 2018-09-19 11:24 小小八阅读(259) 评论(0) 推荐(0)

随笔分类 - 机器学习

公告