摘要: # SVM--支持向量机 SVM简介 ​ 支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化 阅读全文
posted @ 2022-12-11 20:45 单车/ 阅读(118) 评论(1) 推荐(0)
摘要: # 机器学习--Logistic 回归 Logistic回归简介 Logistic回归是一种十分常见的分类模型,是的严格来说这是一个分类模型,之所以叫做回归也是由于历史原因。不同于线性回归中对于参数的推导,我们在这里运用的方式不再是最小二乘法,而是极大似然估计。 优点:计算代价不高,易于理解和实现 阅读全文
posted @ 2022-12-08 09:09 单车/ 阅读(96) 评论(0) 推荐(0)
摘要:  朴素贝叶斯--垃圾邮件分类 一.垃圾邮件数据集 smsspamcollection数据集 本文数据集来源github:https://github.com/w1449550206/Spam-classification.git ham:非垃圾短信 spam:垃圾短信 二.朴素贝叶斯原理 说到贝叶 阅读全文
posted @ 2022-11-29 11:01 单车/ 阅读(796) 评论(0) 推荐(0)
摘要: 在上一篇文章中,我们实现了树的构造,在下面的内容中,我们将中心放在以下几个方面 1.剪枝 2.连续值处理 3.数据加载器:DataLoader 4.模型评估 一,后剪枝 • 为什么剪枝 –“剪枝”是决策树学习算法对付“过拟合”的主要手段,可通过“剪枝”来一定程度避免因决策分支过多,以致于把训练集自身 阅读全文
posted @ 2022-11-20 14:13 单车/ 阅读(423) 评论(0) 推荐(0)
摘要: 一,信息熵 当谈到决策树的构建时,一定会想到信息熵,那么究竟什么是信息熵呢?根据百度百科描述:熵(shāng),热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。信息熵:信息熵(information entropy)是信息论的基本概念。描述信息源各可能事件发生的不确定性 阅读全文
posted @ 2022-11-14 20:43 单车/ 阅读(337) 评论(0) 推荐(0)
摘要: 在本篇文章中,我即将以在集美大学收集到的一些数据集为基础,使用KNN算法进行一系列的操作 一、KNN算法 首先,什么是KNN算法呢,这得用到老祖宗说的一句话“近朱者赤近墨者黑”,简单来讲就是,一个物体它靠近什么,我们也可以认为它就是什么。此算法运用广泛,生活中就有体现。比如,你是否发现,你好朋友刷到 阅读全文
posted @ 2022-10-31 10:13 单车/ 阅读(430) 评论(0) 推荐(0)
摘要: 一.准确率,召回率 TP(True Positive):正确的正例,一个实例是正类并且也被判定成正类 FN(False Negative):错误的反例,漏报,本为正类但判定为假类 FP(False Positive):错误的正例,误报,本为假类但判定为正类 TN(True Negative):正确的 阅读全文
posted @ 2022-10-24 08:36 单车/ 阅读(504) 评论(0) 推荐(0)
摘要: 一.下载Anaconda 二.添加清华镜像 # 添加清华镜像 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https: 阅读全文
posted @ 2022-10-18 15:29 单车/ 阅读(240) 评论(0) 推荐(0)