随笔分类 -  机器学习

摘要:文章目录1.trainNB0()函数中的错误2.textParse()文本解析函数3.spamTest()中的报错3.1 解析文件中含有非法字符3.2 TypeError4.获取区域意向示例RSS源有问题 笔者在学习《机器学习实战》一书时,手敲书上的代码之后发现书中的一些纰漏,通过查阅资料解决了这些 阅读全文
posted @ 2019-05-23 15:53 siplifyit 阅读(434) 评论(0) 推荐(0)
摘要:文章目录1.朴素贝叶斯法的Python实现1.1 准备数据:从文本中构建词向量1.2 训练算法:从词向量计算概率1.3 测试算法:根据现实情况修改分类器1.4 准备数据:文档词袋模型2.示例1:使用朴素贝叶斯过滤垃圾邮件2.1 准备数据:切分文本2.2 测试算法:使用朴素贝叶斯进行交叉验证3.示例2 阅读全文
posted @ 2019-05-23 15:22 siplifyit 阅读(610) 评论(0) 推荐(0)
摘要:文章目录1.朴素贝叶斯法前导知识1.1 贝叶斯决策理论1.2 概率论基本概念2.朴素贝叶斯法2.1 朴素贝叶斯法的学习与分类2.1.1 朴素贝叶斯法的学习2.1.2 朴素贝叶斯法的分类2.2 朴素贝叶斯法的参数估计2.2.1 极大似然估计2.2.2 贝叶斯估计2.2.3 对数化的似然函数2.3 理解 阅读全文
posted @ 2019-05-22 21:51 siplifyit 阅读(434) 评论(0) 推荐(0)
摘要:文章目录1.ID3及C4.5算法基础1.1 计算香农熵1.2 按照给定特征划分数据集1.3 选择最优特征1.4 多数表决实现2.基于ID3、C4.5生成算法创建决策树3.使用决策树进行分类4.存储决策树 通过决策树原理及相关概念细节我们知道,决策树的学习算法主要包括3个步骤:特征选择、决策树生成算法 阅读全文
posted @ 2019-05-15 20:03 siplifyit 阅读(185) 评论(0) 推荐(0)
摘要:文章目录1.决策树概述1.1 基本概念1.2 决策树学习概述2.特征选择2.1 信息增益(information gain)2.1.1 熵(entropy)2.1.2 条件熵(conditional entropy)2.1.3 信息增益计算2.2 信息增益比(information gain rat 阅读全文
posted @ 2019-05-15 18:29 siplifyit 阅读(708) 评论(0) 推荐(0)
摘要:文章目录1.背景2.ROC曲线2.1 ROC名称溯源(选看)2.2 ROC曲线的绘制3.AUC(Area Under ROC Curve)3.1 AUC来历3.2 AUC几何意义3.3 AUC计算3.4 理解AUC的意义3.4.1 从Mann-Whitney U test角度理解3.4.2 从AUC 阅读全文
posted @ 2019-05-08 19:16 siplifyit 阅读(1293) 评论(0) 推荐(0)
摘要:文章目录1.错误率与精度2.查准率、查全率与F12.1 查准率、查全率2.2 P-R曲线(P、R到F1的思维过渡)2.3 F1度量2.4 扩展 性能度量是用来衡量模型泛化能力的评价标准,错误率、精度、查准率、查全率、F1、ROC与AUC这7个指标都是分类问题中用来衡量模型泛化能力的评价标准,也就是性 阅读全文
posted @ 2019-05-05 10:54 siplifyit 阅读(2225) 评论(0) 推荐(0)
摘要:文章目录1.改进约会网站匹配效果1.1 准备数据:从文本文件中解析数据1.2 分析数据:使用Matplotlib创建散点图1.3 准备数据:归一化特征1.4 测试算法:作为完整程序验证分类器1.5 使用算法:构建完成可用系统2.手写识别系统2.1 准备数据:将图像转换为测试向量2.2 测试算法:使用 阅读全文
posted @ 2019-05-02 14:51 siplifyit 阅读(185) 评论(0) 推荐(0)
摘要:笔者本人是个初入机器学习的小白,主要是想把学习过程中的大概知识和自己的一些经验写下来跟大家分享,也可以加强自己的记忆,有不足的地方还望小伙伴们批评指正,点赞评论走起来~ 文章目录1.k-近邻算法概述1.1 距离度量1.2 k值的选择1.3 分类决策规则2.k-近邻算法实现2.1 实现方法2.2 k- 阅读全文
posted @ 2019-05-01 20:38 siplifyit 阅读(324) 评论(0) 推荐(0)
摘要:文章目录1.过拟合(over-fitting)问题2.正则化线性回归(Regularized linear regression)2.1 正则化线性回归的代价函数2.2 正则化线性回归的梯度下降法2.3 正则化线性回归的正规方程2.3.1 正则化线性回归的正规方程表示2.3.2 正规方程中的不可逆( 阅读全文
posted @ 2019-04-23 22:49 siplifyit 阅读(318) 评论(0) 推荐(0)
摘要:文章目录1.二元分类(Binary classification)1.1 逻辑回归的假设函数(Hypothesis function)1.1.1 假设函数的推导1.1.2 对假设函数输出的解释1.1.3 决策边界(Decision boundary)1.2 逻辑回归的代价函数(Cost functi 阅读全文
posted @ 2019-04-23 17:03 siplifyit 阅读(1127) 评论(0) 推荐(0)
摘要:文章目录1.多变量线性回归模型(Linear Regression with Multiple Variables)1.1 假设函数(Hypothesis function)1.2 代价函数(Cost function)1.3 批量梯度下降法(Batch Gradient Descent Algor 阅读全文
posted @ 2019-04-20 21:34 siplifyit 阅读(442) 评论(0) 推荐(0)
摘要:文章目录1.机器学习概览1.1 监督学习1.1.1 回归问题:预测连续值1.1.2 分类问题:预测离散值(二分类、多分类)1.2 无监督学习1.3 其他1.4 机器学习一般过程2.单变量线性回归模型(Linear Regression with One Variable)2.1 假设函数(Hypot 阅读全文
posted @ 2019-04-20 14:42 siplifyit 阅读(254) 评论(0) 推荐(0)