Python-机器学习8 定义、基本理论、专业术语、scikit-learn框架,鸢尾花数据集
1.学习框架

2.概述
2.1 定义
计算机通过数据和计算获得一定的技巧的过程,即利用经验改善自己系统的性能。(经验---->数据)
2.2 发展
(1)萌芽期:图灵测试提出机器具有智能,跳棋程序的开发创造出“机器学习”一词。
(2)摸索期:k近邻算法出现,计算机可以进行简单的模式识别。决策树算法的出现,ID3算法的出现,加快了算法的运行速度。
(3)崛起期:SVM、AdaBoost、随机森林的出现,
2.3 应用领域
(1)商业:销售数据、客户信息分析,推荐系统。
(2)金融:薪资、股票市场、欺诈检测等。
(3)医疗:检测皮肤癌、分析健康数据。
(4)语言:翻译、语言问答。
(5)计算机视觉:图像处理、美化。
(6)网络:垃圾邮件检测等。
(7)工业:质量管理、故障检测。
(8)生活娱乐:天气预报、自动驾驶、GPS等。
3.基本理论

3.1 基本术语
(1)数据集:是一种由数据所组成的集合,通常以表格形式出现,如上图一个表。
(2)样本/实例:每一行表示一个数据,表示对一个事件或对象的描述,如上面的一行。
(3)特征/属性:每一列反映事件或对象在某方面的表现和性质,如上面的某一列。
(4)特征值/属性值:某一列某一行的取值。
(5)属性空间、样本空间、输入空间:所有属性组成的空间。
(6)模型:描述属性和问题之间关系的数学对象,如根据敲声判断一个瓜是不是好瓜。
(7)学习/训练:从数据中使用算法得到模型的过程。
(8)训练集:拿来训练的。
(9)测试集:拿已经学习好的模型来测试数据集。
(10)验证集:用于在学习过程中对模型进行调整和选择。
(11)标签/标记:描述模型输出的可能值,如是好瓜。(输出空间)
(12)收敛状态:模型已经达到无法改进的状态,达到最好的样子。
(13)预测:新的数据输入到训练好的模型中,以对其进行判断。
(14)泛化能力:模型适用于新样本的能力。
(15)模型评估:检验模型效果的方法。
(16)维数:特征的数目称之为维数。
3.2.算法

4.1监督学习
(1)定义:根据已有的数据集,且数据集是人为标记的,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。(关系---->模型)
(2)分类:分类(Classification)、回归(Regression)
4.2 无监督学习
(1)定义:不知道数据集中数据、特征之间的关系,无标记的,要根据聚类或一定的模型得到数据之间的关系。(模型---->关系)
(2)分类:聚类(Cluster)
5. scikit-learn框架

5.1 数据的加载:
sklearn.datasets.load_名字([return_X_y])
5.2 生成数据集
sklearn.datasets.make_blobs(n_samples=,n_features=,.....)
5.3 模型训练和预测
(1)scikit-learn的model_selection包含 rain_test_split()方法可以将数据集转化为train_data 和 test_data两个部分。
(2)划分完后使用 fit() 方法进行训练模型。
(3)训练完后可以用 predict() 方法预测。
5.4 模型评估
使用score()方法

浙公网安备 33010602011771号