Loading

数据集获取、划分、开发流程

数据集获取、开发流程

数据集接口介绍

sklearn.datasets.load_*():获取小规模的数据集

sklearn.datasets.fetch_*(data_home=None,subset):获取大规模的数据集data_home表示数据集下载目录,None为默认值表示的是家目录/scikit_learn_data（自动创建该文件夹）下。需要从网络下载.subset为需要下载的数据集，可以为train，test，all

from sklearn import datasets as dt
data = dt.load_iris()
#提取特征数据和标签数据
feature = data.data
target = data.target

from sklearn.model_selection import train_test_split

#test_size指定测试机的占比
#random_state随机打乱样本数据在进行切分
x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2021)

#返回值：
#x_train 训练集的特征数据   y_train训练集的标签数据  x_train和y_train就组成了训练集数据
#x_test 测试机的特征数据    y_test测试机的标签数据   x_test和y_test就组成了测试机数据

机器学习算法分类

分类和回归问题

分类算法基于的是【标签数据】为【离散型】数据

回归算法基于的是【标签数据】为【连续型】数据

结论：在社会中产生的数据必然是离散型或者是连续型的数据，那么企业针对数据所产生的需求也无非是分类问题或者回归问题。

机器学习开发流程

1.数据采集

公司内部产生的数据

和其他公司合作获取的数据

购买的数据

2.分析数据所对应要解决需求或者问题是什么？根据目标数据推断问题属于回归还是分类！

3.数据的基本处理

数据清洗

合并

级联等

4.特征工程：对特征进行处理

特征抽取

特征预处理

降维等

5.选择合适的模型，然后对其进行训练

6.模型的评估

7.上线使用

posted @ 2021-09-01 13:06 my-island 阅读(379) 评论(0) 收藏举报

刷新页面返回顶部