13_数据的划分和介绍之sklearn数据集

1.数据集是如何划分？训练数据和评估数据不能使用相同数据，不然自己测自己，会使得准确率虚高，在遇到陌生数据时，不够准确。

2.数据集的获取：通过load或者fetch方法。

3.数据集进行分割：

训练集的数据分为特征值和目标值，测试集的数据也分为特征值和目标值，训练集中的x_test、测试集中的y_test、训练集中的x_train、测试集中的y_train。

训练集：x_train,y_train,分别表示训练集里面的特征值、目标值

测试集：x_test,y_test，分别表示测试集里面的特征值、目标值

注意返回格式：x_train , x_test, y_train , y_test = train_test_split(li.data,li.target,test_size=0.25)

print("训练集的特征值和目标值",x_train,y_train)
print("测试集的特征值和目标值",y_test,y_test)

案例1：鸢尾花(分类数据集，数据离散）

# 鸢尾花
from sklearn.datasets import load_iris

li = load_iris()
# 获取特征值
print(li.data)
# 获取目标值
print(li.target)
# 获取描述
print(li.DESCR)

获取描述信息：鸢尾花的属性，类别（属于那种鸢尾花）

鸢尾花的训练值和测试集

# 鸢尾花
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
li = load_iris()
# # 获取特征值
# print(li.data)
# # 获取目标值
# print(li.target)
# # 获取描述
# print(li.DESCR)
# # 数据集进行分割

# 注意返回值,训练集train x_train,y_train    测试集 test   x_test,y_test
x_train , x_test, y_train , y_test  = train_test_split(li.data,li.target,test_size=0.25)

print("训练集的特征值和目标值",x_train,y_train)
print("测试集的特征值和目标值",y_test,y_test)

案例2：新闻组类别（分类数据集，数据离散）

　　　 subset='all'：表示既获取训练数据，又获取测试数据。

from sklearn.datasets import fetch_20newsgroups
news = fetch_20newsgroups(subset='all')
print(news.data)
print(news.target)

注：fetch_20newsgroups，会从网上下载大约14MB的数据集

案例3：波士顿房价(回归数据集，数据连续）

from sklearn.datasets import load_boston

lb = load_boston()
print("获取特征值")
print(lb.data)

print("获取目标值")
print(lb.target)

print("获取描述信息")
print(lb.DESCR)

posted @ 2019-10-25 19:22 会飞的发如雪阅读(444) 评论(0) 收藏举报

刷新页面返回顶部

会飞的发如雪

13_数据的划分和介绍之sklearn数据集

公告