01 2021 档案
摘要:集成学习方法之随机森林 1、 什么是集成学习方法 集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。 2、 什么是随机森林 在机器学习中,随机森林是一个包含多个决策树的分类器,
阅读全文
摘要:决策树 1、认识决策树 决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法 怎么理解这句话?通过一个对话例子 想一想这个女生为什么把年龄放在最上面判断!!!!!!!!! 2、决策树分类原理详解 为了更好理解决策树具体怎么分
阅读全文
摘要:朴素贝叶斯算法 1、 什么是朴素贝叶斯分类方法 2、 概率基础 2.1 概率(Probability)定义 概率定义为一件事情发生的可能性 扔出一个硬币,结果头像朝上 某天是晴天 P(X) : 取值在[0, 1] 2.2 女神是否喜欢计算案例 在讲这两个概率之前我们通过一个例子,来计算一些结果: 问
阅读全文
摘要:模型选择与调优 1、为什么需要交叉验证 交叉验证目的:为了让被评估的模型更加准确可信 2、什么是交叉验证(cross validation) 交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型
阅读全文
摘要:K-近邻算法 什么是K-近邻算法 你的“邻居”来推断出你的类别 1、K-近邻算法(KNN) 1.1 定义 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 来源:KNN算法最早是由Cover和Hart提出的一种分类算法 1.2 距离公
阅读全文
摘要:sklearn转换器和估计器 1、转换器和估计器 1.1 转换器 想一下之前做的特征工程的步骤? 1、实例化 (实例化的是一个转换器类(Transformer)) 2、调用fit_transform(对于文档建立分类词频矩阵,不能同时调用) 我们把特征工程的接口称之为转换器,其中转换器调用有这么几种
阅读全文
摘要:数据集介绍与划分 1、 数据集的划分 机器学习一般的数据集会划分为两个部分: 训练数据:用于训练,构建模型 测试数据:在模型检验时使用,用于评估模型是否有效 划分比例: 训练集:70% 80% 75% 测试集:30% 20% 30% API sklearn.model_selection.train
阅读全文
摘要:2.6 主成分分析 2.6.1 什么是主成分分析(PCA) 定义:高维数据转化为低维数据的过程,在此过程中可能会舍弃原有数据、创造新的变量 作用:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息。 应用:回归分析或者聚类分析当中 对于信息一词,在决策树中会进行介绍 那么更好的理解这个过
阅读全文
摘要:2.5 特征降维 2.5.1 降维 降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程 降低随机变量的个数 相关特征(correlated feature) 相对湿度与降雨量之间的相关 等等 正是因为在进行训练的时候,我们都是使用特征进行学习。如果特征本身存在问题或者
阅读全文
摘要:2.4 特征预处理 2.4.1 什么是特征预处理 # scikit-learn的解释 provides several common utility functions and transformer classes to change raw feature vectors into a repr
阅读全文
摘要:2.2 特征工程 2.2.1 什么是特征工程 特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。 意义:会直接影响机器学习的效果 2.2.3 特征工程的位置与数据处理的比较 pandas:一个数据读取非常方便以及基本的处理格式的工具 sklearn:对于特征的
阅读全文
摘要:2.1 数据集 目标 知道数据集的分为训练集和测试集 会使用sklearn的数据集 应用 无 2.1.1 可用数据集 Kaggle网址:https://www.kaggle.com/datasets UCI数据集网址: http://archive.ics.uci.edu/ml/ scikit-le
阅读全文
摘要:1.1 什么是机器学习 1.1.1 定义 机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。 1.1.2 解释 我们人从大量的日常经验中归纳规律,当面临新的问题的时候,就可以利用以往总结的规律去分析现实状况,采取最佳策略。 从数据(大量的猫和狗的图片)中自动分析获得模型(辨别猫和狗的
阅读全文

浙公网安备 33010602011771号