python机器学习--监督学习000(监督学习概述)
监督学习
监督学习是最常用也是最成功的机器学习类型之一,本文将会详细介绍监督学习,并且解释几种常用的监督学习算法。
监督学习使用环境
每当给定输入预测某个结果,并且还有输入/输出对的示例,那么都应该使用监督学习
分类与回归
监督学习问题主要由两种: 分类 和 回归
分类问题目标 :预测类别标签,这些标签来自预定义可选列表
分类问题可以分为:二分类和多分类
可以将二分类看为是否问题
在二分类问题中:我们通常将其中一个类别称为正类,另一个类别称为反类
回归问题目标:预测一个连续值,编程术语称为浮点数,数学术语称为实数
例: 根据教育水平,年龄,居住地来预测一个人的年收入,在预测收入时,预测值是一个金额,可以在给定范围内任意取值
分类和回归的区分方法:
观察输出是否具有连续性
泛化,过拟合,欠拟合
在监督学习中,我们需要在训练数据上构建模型,然后使其能对未见过的新数据做出准确预测。
泛化: 如果一个模型可以对没见过的数据做出准确的预测,那么我们就说他能从训练集泛化到测试集
过拟合: 构建一个对现有信息量过于复杂的模型的行为被称为过拟合。 就是限制条件太多了,使精度特别高,但并不具有普遍性
欠拟合: 选择模型过于简单的行为被称为欠拟合。 意思就是根据几条数据就得出男的都打游戏
模型复杂度和数据集大小关系;
模型的复杂度和数据集集中输入的变化密切相关
数据集中数据点的变化范围越大,在不发生过拟合的前提下模型就越复杂
所以,收集更多的数据,适当构建更加复杂的模型对于监督学习往往特别有效
监督学习算法前奏---样本数据集
之后的文字会详细解释监督学习的一些最常用算法,和其拥有的优缺点和应用场景,大多数算法包括了实现分类和回归
不同的数据集适合于不同的算法,之后的篇幅将用到一些数据集,一些数据集很小,并且是模拟的,目的仅仅是为了强调算法的某些特定方面.
除了模拟的数据集(小数据集),还将介绍:
load_breast_cancer : 乳腺癌数据集 class: 良性,恶性 特征:30个 样本数:569
from sklearn.datasets import load_breast_cancer
cancer_dataset = load_breast_cancer()
cancer_dataset.keys() //拿到全部的键
cancer_dataset.target
回归问题
load_boston: 波士顿房价 特征: 13个 样本数: 506
from sklearn.datasets import load_boston
boston_dataset = load_boston()
boston_dataset.keys()
对于这个数据集: 我们需要扩展这个数据集,可以不仅仅将其13个单独特征作为特征,还可以将特征间的乘积作为特征
像这样包含导出特征方法叫做: 特征工程
这样可以使特征变为 13个的两两组合和其13个本身,共104个

浙公网安备 33010602011771号