03 2021 档案

摘要:分类算法之k-近邻 k-近邻算法采用测量不同特征值之间的距离来进行分类 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 使用数据范围:数值型和标称型 一个例子弄懂k-近邻 电影可以按照题材分类,每个题材又是如何定义的呢?那么假如两种类型的电影,动作片和爱情片。动作片有 阅读全文
posted @ 2021-03-09 09:28 17_Xtreme 阅读(126) 评论(0) 推荐(0)
摘要:模型的选择 算法是核心,数据和计算是基础。这句话很好的说明了机器学习中算法的重要性。那么我们开看下机器学习的几种分类: 监督学习 分类 k-近邻算法、决策树、贝叶斯、逻辑回归(LR)、支持向量机(SVM) 回归 线性回归、岭回归 标注 隐马尔可夫模型(HMM) 无监督学习 聚类 k-means 如何 阅读全文
posted @ 2021-03-08 07:26 17_Xtreme 阅读(195) 评论(0) 推荐(0)
摘要:scikit-learn数据集 我们将介绍sklearn中的数据集类,模块包括用于加载数据集的实用程序,包括加载和获取流行参考数据集的方法。它还具有一些人工数据生成器。 sklearn.datasets (1)datasets.load_*() 获取小规模数据集,数据包含在datasets里 (2) 阅读全文
posted @ 2021-03-07 17:21 17_Xtreme 阅读(104) 评论(0) 推荐(0)
摘要:数据的特征选择 降维本质上是从一个维度空间映射到另一个维度空间,特征的多少别没有减少,当然在映射的过程中特征值也会相应的变化。举个例子,现在的特征是1000维,我们想要把它降到500维。降维的过程就是找个一个从1000维映射到500维的映射关系。原始数据中的1000个特征,每一个都对应着降维后的50 阅读全文
posted @ 2021-03-06 17:19 17_Xtreme 阅读(95) 评论(0) 推荐(0)
摘要:数据的特征预处理 单个特征 (1)归一化 归一化首先在特征(维度)非常多的时候,可以防止某一维或某几维对数据影响过大,也是为了把不同来源的数据统一到一个参考区间下,这样比较起来才有意义,其次可以程序可以运行更快。 例如:一个人的身高和体重两个特征,假如体重50kg,身高175cm,由于两个单位不一样 阅读全文
posted @ 2021-03-05 12:18 17_Xtreme 阅读(105) 评论(0) 推荐(0)