python机器学习--监督学习000(监督学习概述)

监督学习

监督学习是最常用也是最成功的机器学习类型之一,本文将会详细介绍监督学习,并且解释几种常用的监督学习算法。

监督学习使用环境

每当给定输入预测某个结果,并且还有输入/输出对的示例,那么都应该使用监督学习

分类与回归

监督学习问题主要由两种: 分类 和 回归

分类问题目标 :预测类别标签,这些标签来自预定义可选列表
分类问题可以分为:二分类和多分类
可以将二分类看为是否问题

在二分类问题中:我们通常将其中一个类别称为正类,另一个类别称为反类


回归问题目标:预测一个连续值,编程术语称为浮点数,数学术语称为实数
    例: 根据教育水平,年龄,居住地来预测一个人的年收入,在预测收入时,预测值是一个金额,可以在给定范围内任意取值

分类和回归的区分方法:
    观察输出是否具有连续性

泛化,过拟合,欠拟合

在监督学习中,我们需要在训练数据上构建模型,然后使其能对未见过的新数据做出准确预测。

泛化: 如果一个模型可以对没见过的数据做出准确的预测,那么我们就说他能从训练集泛化到测试集

过拟合: 构建一个对现有信息量过于复杂的模型的行为被称为过拟合。 就是限制条件太多了,使精度特别高,但并不具有普遍性

欠拟合: 选择模型过于简单的行为被称为欠拟合。 意思就是根据几条数据就得出男的都打游戏



模型复杂度和数据集大小关系;
    模型的复杂度和数据集集中输入的变化密切相关
    数据集中数据点的变化范围越大,在不发生过拟合的前提下模型就越复杂
    所以,收集更多的数据,适当构建更加复杂的模型对于监督学习往往特别有效

监督学习算法前奏---样本数据集

之后的文字会详细解释监督学习的一些最常用算法,和其拥有的优缺点和应用场景,大多数算法包括了实现分类和回归

不同的数据集适合于不同的算法,之后的篇幅将用到一些数据集,一些数据集很小,并且是模拟的,目的仅仅是为了强调算法的某些特定方面.

除了模拟的数据集(小数据集),还将介绍:

load_breast_cancer : 乳腺癌数据集 class: 良性,恶性  特征:30个 样本数:569
from sklearn.datasets import load_breast_cancer
cancer_dataset = load_breast_cancer()
cancer_dataset.keys() //拿到全部的键
cancer_dataset.target


回归问题
load_boston: 波士顿房价 特征: 13个 样本数: 506
from sklearn.datasets import load_boston
boston_dataset = load_boston()
boston_dataset.keys()

对于这个数据集: 我们需要扩展这个数据集,可以不仅仅将其13个单独特征作为特征,还可以将特征间的乘积作为特征
像这样包含导出特征方法叫做: 特征工程
这样可以使特征变为 13个的两两组合和其13个本身,共104个
posted @ 2022-01-28 13:14  cc学习之路  阅读(257)  评论(0)    收藏  举报