机器学习模型学习
机器学习库的学习
1.Scikit-learn
开始 python安装 pip install-U scikit-learn
以鸢尾花分类模型为例
1.鸢尾花数据集介绍
共三个数据集,Setosa鸢尾花、Versicolour鸢尾花、Virginica鸢尾花,每一类有50条样本记录,共计150条样本记录。
数据集分4种属性,花萼的长,花萼的宽,花瓣的长,花瓣的宽。
代码
#导入数据划分模块,数据划分模块可以将原始数据划分为训练数据集和测试数据集
#导入Sklearn的数据集
#导入Sklearn的K近邻分类器,K近邻分类器可以将数据集中特征值相近的数据划分为同一类别
from sklearn.model_selection import train_test_split from sklearn import datasets from sklearn.neighbors import KNeighborsClassifier
#加载鸢尾花数据集 iris = datasets.load_iris()
#取出所有数据 x = iris.data
#取出标签 y = iris.target
#将数据集切割训练数据集和测试数据集,本体为30%的测试数据集,70%为训练数据集 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)
#定义模型方法,本例用的是K近邻算法 knn = KNeighborsClassifier()
#调用fit方法自动完成模型训练 knn.fit(x_train, y_train)
#输出结果 print(knn.predict(x_test)) print(y_test)
2.Sklearn常用数据集
(1)自带数据集:
sklearn.datasets.load_<name>
(2)可在线下载的真实数据集
sklearn.datasets.fetch_<name>
(3)计算机生成的数据集
sklearn.datasets.make_<name>
(4)svmlight/libsvm格式的数据集
sklearn.datasets.load_svmlight_file()
(5)在线获取的数据集
sklearn.datasets.fetch_mldata()

浙公网安备 33010602011771号