数据集获取、划分、开发流程
数据集获取、开发流程
数据集接口介绍
- sklearn.datasets.load_*():获取小规模的数据集
- sklearn.datasets.fetch_*(data_home=None,subset):获取大规模的数据集data_home表示数据集下载目录,None为默认值表示的是家目录/scikit_learn_data(自动创建该文件夹)下。需要从网络下载.subset为需要下载的数据集,可以为train,test,all
from sklearn import datasets as dt
data = dt.load_iris()
#提取特征数据和标签数据
feature = data.data
target = data.target
from sklearn.model_selection import train_test_split
#test_size指定测试机的占比
#random_state随机打乱样本数据在进行切分
x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2021)
#返回值:
#x_train 训练集的特征数据 y_train训练集的标签数据 x_train和y_train就组成了训练集数据
#x_test 测试机的特征数据 y_test测试机的标签数据 x_test和y_test就组成了测试机数据
机器学习算法分类
分类和回归问题
分类算法基于的是【标签数据】为【离散型】数据
回归算法基于的是【标签数据】为【连续型】数据
结论:在社会中产生的数据必然是离散型或者是连续型的数据,那么企业针对数据所产生的需求也无非是分类问题或者回归问题。
机器学习开发流程
- 1.数据采集
- 公司内部产生的数据
- 和其他公司合作获取的数据
- 购买的数据
- 2.分析数据所对应要解决需求或者问题是什么?根据目标数据推断问题属于回归还是分类!
- 3.数据的基本处理
- 数据清洗
- 合并
- 级联等
- 4.特征工程:对特征进行处理
- 特征抽取
- 特征预处理
- 降维等
- 5.选择合适的模型,然后对其进行训练
- 6.模型的评估
- 7.上线使用

浙公网安备 33010602011771号