sklearn.datasets
sklearn.datasets
1.波士顿房价数据
#波士顿房价数据集 from sklearn.datasets import load_boston import pandas as pd boston=load_boston() boston.data boston.target boston.feature_names df=pd.DataFrame(boston.data,columns=boston.feature_names)
属性:
| name | 属性信息 |
| CRIM | 按城镇划分的CRIM人均犯罪率 |
| ZN | ZN占地超过25,000平方英尺的住宅用地比例 |
| INDUS | INDUS每个城镇非零售业务英亩的比例 |
| CHAS | 查尔斯河虚拟变量(如果束缚河,则为1;否则为0) |
| NOX | 一氧化氮浓度(百万分之几) |
| RM | 每个住宅的平均房间数 |
| AGE | 1940年之前建造的自有住房的年龄比例 |
| DIS | 与五个波士顿就业中心的加权距离 |
| RAD | 径向公路通达性指数 |
| TAX | 每10,000美元的税全额财产税税率 |
| PTRATIO | 按镇划分的师生比例 |
| B | 1000(Bk-0.63)^ 2其中Bk是按城镇划分的黑人比例 |
| LSTAT | 人口地位降低百分比 |
| target | 自有住房的中位数价值(以1000美元计) |
2.鸢尾花植物数据集
#鸢尾花数据集 from sklearn.datasets import load_iris import pandas as pd iris=load_iris() iris.data iris.target iris.feature_names df=pd.DataFrame(iris.data,columns=iris.feature_names)
iris.target_names
属性:
| name | 属性 |
| sepal length (cm) | 萼片长度(厘米) |
| sepal width (cm) | 萼片宽度(厘米) |
| petal length (cm) | 花瓣长度(厘米) |
| petal width (cm) | 花瓣宽度(厘米) |
3.糖尿病数据集
#糖尿病数据集 from sklearn.datasets import load_diabetes import pandas as pd diabetes=load_diabetes() diabetes.data diabetes.target diabetes.feature_names df=pd.DataFrame(diabetes.data,columns=diabetes.feature_names)
属性:
| name | 属性 |
| age | 年龄(岁) |
| sex | 性别 |
| bmi | 体重指数 |
| bp | 平均血压 |
| s1 | tc,T细胞(一种白细胞) |
| s2 | ldl,低密度脂蛋白 |
| s3 | hdl,高密度脂蛋白 |
| s4 | tch,甲状腺刺激激素 |
| s5 | LTG,拉莫三嗪 |
| s6 | glu,血糖水平 |
4.数字数据集
from sklearn.datasets import load_digits import pandas as pd digits=load_digits()
5.加州住房数据集
#加州住房数据集 from sklearn.datasets import fetch_california_housing import pandas as pd fetch_california_housing=fetch_california_housing() df=pd.DataFrame(fetch_california_housing.data,columns=fetch_california_housing.feature_names)
属性:
| name | 属性 |
| MedInc | 中位数收入 |
| HouseAge | 房屋平均年龄 |
| AveRooms | 平均房间数 |
| AveBedrms | 平均卧室数 |
| Population | 人口 |
| AveOccup | 平均房屋出租率 |
| Latitude | 街区纬度 |
| Longitude | 房子街区经度 |
浙公网安备 33010602011771号