机器学习第一讲

第一讲：介绍

1.学习大数据原因：

数据源∶非结构化数据（语音、视频、文本、网络数据)

模型和计算能力∶深度学习、GPU、分布式系统

广泛的应用场景∶营销、广告、金融、交通、医疗等

2.公式

Data Data:数据丨 X︰表示、特征、指标

丨 F︰模型

↓ Y : 智慧，也即预测任务或目标 Y =F(X)

大数据是指数据采集、清洗、分析和应用的整个流程中的理论、技术和方法。

机器学习是大数据分析的核心内容。由XY找到F。

深度学习是机器学习的一部分，其核心是自动找到对特定任务有效的特征，也即自动完成Data到X的转换。

3.方法

有监督学习( supervised learning ) 数据集中的样本带有标签，有明确目标。

应用场景∶垃圾邮件分类、病理切片分类、客户流失预警、客户风险评估、房价预测等。

典型方法：

回归模型:线性回归、岭回归、LASSO和回归样条等

分类模型:逻辑回归、K近邻、决策树、支持向量机等

无监督学习( unsupervised learning ) 数据集中的样本没有标签，没有明确目标聚类、降维、排序、密度估计、关联规则挖掘

    聚类：将数据集中相似的样本进行分组，使得同一组对象之间尽可能相似;不同组对象之间尽可能不相似。
    应用场景：基因表达水平聚类、篮球运动员划分、客户分析。

强化学习( reinforcement learning ) 智慧决策的过程，通过过程模拟和观察来不断学习、提高决策能力。

4.基本概念

数据集:一组样本的集合。样本∶数据集的一行。一个样本包含一个或多个特征，此外还可能包含一个标签。特征:在进行预测时使用的输入变量。

训练集：用于训练模型的数据集测试集：用于测试模型的数据集模型∶建立数据的输入x和输出y之间的映射关系y = f()。

损失函数:L(yi, f(xi))例如，对回归问题可以定义为(f(xi)一 yi)^2。

一般流程（有监督）：

过度拟合：模型过于复杂，会导致对位置数据预测很差。解决方式:正则化.

数据选取：交叉验证、K折交叉验证。

交叉验证：基本想法是重复地使用数据。将数据集随机切分，将切分的数据集组合为训练集和测试集，在此基础上反复进行训练，测试和模型选择。

5.数学结构

度量、网格、代数、几何等结构。

①度量结构：

距离：曼哈顿、欧式、极大距离。

方法：K近邻。

②网格结构：有度量结构定义一个网格结构。表示为G=<V,E>V:节点 E:边

例如两个样本的距离小于某个阈值，就连一条边。也可以进一步将边赋予权重，权重就是两个样本的相似度。

算法：PageRank算法

posted @ 2021-01-26 20:06 利威尔阅读(602) 评论(0) 收藏举报

刷新页面返回顶部

利威尔