Loading

数据集获取、划分、开发流程

数据集获取、开发流程

数据集接口介绍

  • sklearn.datasets.load_*():获取小规模的数据集
  • sklearn.datasets.fetch_*(data_home=None,subset):获取大规模的数据集data_home表示数据集下载目录,None为默认值表示的是家目录/scikit_learn_data(自动创建该文件夹)下。需要从网络下载.subset为需要下载的数据集,可以为train,test,all
from sklearn import datasets as dt
data = dt.load_iris()
#提取特征数据和标签数据
feature = data.data
target = data.target
from sklearn.model_selection import train_test_split

#test_size指定测试机的占比
#random_state随机打乱样本数据在进行切分
x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2021)

#返回值:
#x_train 训练集的特征数据   y_train训练集的标签数据  x_train和y_train就组成了训练集数据
#x_test 测试机的特征数据    y_test测试机的标签数据   x_test和y_test就组成了测试机数据

机器学习算法分类

  • 分类和回归问题

    • 分类算法基于的是【标签数据】为【离散型】数据

    • 回归算法基于的是【标签数据】为【连续型】数据

    • 结论:在社会中产生的数据必然是离散型或者是连续型的数据,那么企业针对数据所产生的需求也无非是分类问题或者回归问题。

机器学习开发流程

  • 1.数据采集
    • 公司内部产生的数据
    • 和其他公司合作获取的数据
    • 购买的数据
  • 2.分析数据所对应要解决需求或者问题是什么?根据目标数据推断问题属于回归还是分类!
  • 3.数据的基本处理
    • 数据清洗
    • 合并
    • 级联等
  • 4.特征工程:对特征进行处理
    • 特征抽取
    • 特征预处理
    • 降维等
  • 5.选择合适的模型,然后对其进行训练
  • 6.模型的评估
  • 7.上线使用
posted @ 2021-09-01 13:06  my-island  阅读(379)  评论(0)    收藏  举报