python机器学习--监督学习000（监督学习概述）

监督学习

监督学习是最常用也是最成功的机器学习类型之一，本文将会详细介绍监督学习，并且解释几种常用的监督学习算法。

监督学习使用环境

每当给定输入预测某个结果，并且还有输入/输出对的示例，那么都应该使用监督学习

分类与回归

监督学习问题主要由两种: 分类 和 回归

分类问题目标 :预测类别标签,这些标签来自预定义可选列表
分类问题可以分为:二分类和多分类
可以将二分类看为是否问题

在二分类问题中:我们通常将其中一个类别称为正类，另一个类别称为反类


回归问题目标:预测一个连续值，编程术语称为浮点数，数学术语称为实数
    例: 根据教育水平，年龄，居住地来预测一个人的年收入，在预测收入时，预测值是一个金额，可以在给定范围内任意取值

分类和回归的区分方法:
    观察输出是否具有连续性

泛化，过拟合，欠拟合

在监督学习中，我们需要在训练数据上构建模型，然后使其能对未见过的新数据做出准确预测。

泛化: 如果一个模型可以对没见过的数据做出准确的预测，那么我们就说他能从训练集泛化到测试集

过拟合: 构建一个对现有信息量过于复杂的模型的行为被称为过拟合。 就是限制条件太多了，使精度特别高，但并不具有普遍性

欠拟合: 选择模型过于简单的行为被称为欠拟合。 意思就是根据几条数据就得出男的都打游戏



模型复杂度和数据集大小关系;
    模型的复杂度和数据集集中输入的变化密切相关
    数据集中数据点的变化范围越大，在不发生过拟合的前提下模型就越复杂
    所以，收集更多的数据，适当构建更加复杂的模型对于监督学习往往特别有效

监督学习算法前奏---样本数据集

之后的文字会详细解释监督学习的一些最常用算法，和其拥有的优缺点和应用场景，大多数算法包括了实现分类和回归

不同的数据集适合于不同的算法，之后的篇幅将用到一些数据集，一些数据集很小，并且是模拟的，目的仅仅是为了强调算法的某些特定方面.

除了模拟的数据集(小数据集)，还将介绍:

load_breast_cancer : 乳腺癌数据集 class: 良性，恶性  特征:30个 样本数:569
from sklearn.datasets import load_breast_cancer
cancer_dataset = load_breast_cancer()
cancer_dataset.keys() //拿到全部的键
cancer_dataset.target


回归问题
load_boston: 波士顿房价 特征: 13个 样本数: 506
from sklearn.datasets import load_boston
boston_dataset = load_boston()
boston_dataset.keys()

对于这个数据集: 我们需要扩展这个数据集，可以不仅仅将其13个单独特征作为特征，还可以将特征间的乘积作为特征
像这样包含导出特征方法叫做: 特征工程
这样可以使特征变为 13个的两两组合和其13个本身，共104个

posted @ 2022-01-28 13:14 cc学习之路阅读(257) 评论(0) 收藏举报

刷新页面返回顶部

cc学习之路

python机器学习--监督学习000（监督学习概述）

监督学习

监督学习使用环境

分类与回归

泛化，过拟合，欠拟合

监督学习算法前奏---样本数据集

公告