随笔分类 -  机器学习

摘要:分类算法之决策树 决策树是一种基本的分类方法,当然也可以用于回归。我们一般只讨论用于分类的决策树。决策树模型呈树形结构。在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合。在决策树的结构中,每一个实例都被一条路径或者一条规则所覆盖。通常决策树学习包括三个步骤:特征选 阅读全文
posted @ 2021-01-30 20:26 程序那点事 阅读(428) 评论(0) 推荐(0)
摘要:分类算法之逻辑回归 逻辑回归(Logistic Regression),简称LR。它的特点是能够是我们的特征输入集合转化为0和1这两类的概率。一般来说,回归不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大。如果非要应用进入,可以使用逻辑回归。了解过线性回归之后再来看逻辑回归可以更好的理解 阅读全文
posted @ 2021-01-29 20:18 程序那点事 阅读(234) 评论(0) 推荐(0)
摘要:朴素贝叶斯 朴素贝叶斯(Naive Bayes)是一个非常简单,但是实用性很强的分类模型。朴素贝叶斯分类器的构造基础是贝叶斯理论。 概率论基础 概率定义为一件事情发生的可能性。事情发生的概率可以 通过观测数据中的事件发生次数来计算,事件发生的概率等于改事件发生次数除以所有事件发生的总次数。举一些例子 阅读全文
posted @ 2021-01-28 20:16 程序那点事 阅读(148) 评论(0) 推荐(0)
摘要:分类算法之k-近邻 k-近邻算法采用测量不同特征值之间的距离来进行分类 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 使用数据范围:数值型和标称型 一个例子弄懂k-近邻 电影可以按照题材分类,每个题材又是如何定义的呢?那么假如两种类型的电影,动作片和爱情片。动作片有 阅读全文
posted @ 2021-01-27 14:17 程序那点事 阅读(187) 评论(0) 推荐(0)
摘要:模型的选择 算法是核心,数据和计算是基础。这句话很好的说明了机器学习中算法的重要性。那么我们开看下机器学习的几种分类: 监督学习 分类 k-近邻算法、决策树、贝叶斯、逻辑回归(LR)、支持向量机(SVM) 回归 线性回归、岭回归 标注 隐马尔可夫模型(HMM) 无监督学习 聚类 k-means 如何 阅读全文
posted @ 2021-01-26 14:13 程序那点事 阅读(333) 评论(0) 推荐(0)
摘要:scikit-learn数据集 我们将介绍sklearn中的数据集类,模块包括用于加载数据集的实用程序,包括加载和获取流行参考数据集的方法。它还具有一些人工数据生成器。 sklearn.datasets (1)datasets.load_*() 获取小规模数据集,数据包含在datasets里 (2) 阅读全文
posted @ 2021-01-25 14:11 程序那点事 阅读(387) 评论(0) 推荐(0)
摘要:数据的特征选择 降维本质上是从一个维度空间映射到另一个维度空间,特征的多少别没有减少,当然在映射的过程中特征值也会相应的变化。举个例子,现在的特征是1000维,我们想要把它降到500维。降维的过程就是找个一个从1000维映射到500维的映射关系。原始数据中的1000个特征,每一个都对应着降维后的50 阅读全文
posted @ 2021-01-24 10:59 程序那点事 阅读(92) 评论(0) 推荐(0)
摘要:数据的特征预处理 单个特征 (1)归一化 归一化首先在特征(维度)非常多的时候,可以防止某一维或某几维对数据影响过大,也是为了把不同来源的数据统一到一个参考区间下,这样比较起来才有意义,其次可以程序可以运行更快。 例如:一个人的身高和体重两个特征,假如体重50kg,身高175cm,由于两个单位不一样 阅读全文
posted @ 2021-01-23 10:55 程序那点事 阅读(168) 评论(0) 推荐(0)
摘要:数据的特征抽取 现实世界中多数特征都不是连续变量,比如分类、文字、图像等,为了对非连续变量做特征表述,需要对这些特征做数学化表述,因此就用到了特征提取. sklearn.feature_extraction提供了特征提取的很多方法 分类特征变量提取 我们将城市和环境作为字典数据,来进行特征的提取。 阅读全文
posted @ 2021-01-16 22:43 程序那点事 阅读(225) 评论(0) 推荐(1)