摘要:k近邻算法就是用你的邻居来判断你怎么样 有一个距离公式 API sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto') n_neighbors:int,可选(默认= 5),k_neighbors查询默认使用的邻居数
阅读全文
摘要:决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。 物理学上 熵是混乱程度的代表 系统越有序熵值越高 从信息的完整性上进行的描述:当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散
阅读全文
摘要:朴素贝叶斯一般都是用来分类的 文本分类 比如垃圾邮件分类 文章分类 概率基础 概率定义为一件事情发生的可能性 联合概率包含多个条件 且所有条件都成立的概率 P(A,B)特点 P(A)P(B) 条件概率 事情A在事情B已经发生条件下的发生概率P(A|B)特点P(A1,A2|B) = P(A1|B)(A
阅读全文
摘要:逻辑回归 逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归。由于算法的简单和高效,在实际中应用非常广泛。逻辑回归就是解决二分类问题的利器 逻辑回归的输入就是一个线性回归的结果。 逻辑回归最终的分类是通过属于某个类别的概率值来判断
阅读全文
摘要:scikit learn python语言机器学习的工具有着丰富的API 数据集有着训练和测试两个不同的 具体多上自己定 scikit learn接口有 分类 聚类 回归 特征工程 模型选择 调优 加载数据集 sklearn.datasets datasets.load_ () 加载小规模的数据数据
阅读全文
摘要:把特征工程的接口称之为转换器 转换器有三种形式 fit_transform fit transform 虽然后fit和不带fit都一样的 但是因为某些原因不带fit不好用的 什么是估计器 就是你实例的权限是来自与谁啊 谁给你的权利 谁就是估计器 分类估计器 sklearn.neighbors k 近
阅读全文
摘要:特征工程专业的技术处理数据 直接能影响机器学习 就是比较厉害一点的数据处理 特征抽取 数据预处理 特征降维 特征抽取 将任意的数据 比如文本 图片 转换成机器学习的数字特征 就是为了计算机更好的处理数据 字段特征提取 特征离散化 文本特征 图像的特征 API sklearn.feature_extr
阅读全文
摘要:交叉检验是将拿到的数据集分为训练和验证 数据分成几份 其中一份做验证集 经过几次的测试 得到五组模型取平均值 超参数搜索 网格搜索 很多情况下都是手动调参的吗,这种叫超参数。但是手动过程繁杂,所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。 模型选
阅读全文