HCIP-EI v2.0 培训01: 神经网络基础

培训内容

神经网络基础

内容

了解什么事人工神经网络与深度前馈网络

掌握如何训练神经网络

掌握梯度下降的方法以及反向传播的概念

了解神经网络架构设计的因素

半监督学习（semi-supervised learning）：监督学习+无监督学习，用标记数据作为学习的数据集

强化学习（reinforcement learning）：算法与环境交互，学习系统和它的训练过程会有反馈回路

机器学习的一个根本性问题，工程中有很多问题可以抽象化为一个凸问题，理论上，这个问题可以得到解决。

对第i个样本 \(x_i\) ,神经网络W预测其为第k类的得分记作 \(f(x_i,W)_k\) ，\(x_i\) 的真实标签是 \(y_i\) ，损失函数是：

\[Loss_i = - \sum_k{p_k \log(q_k)} = - \sum_k{p_k \log(\frac{e^{f_k}}{\sum_j{e^{f_j}}})} \]

\[w^+ = w - \eta * \frac{\partial Loss}{\partial w} \]

人工神经网络：由人工神经元互连组成的网络，是从微观结构和功能上对人脑的抽象、简化，是模拟人类智能的一条重要途径，反映了人脑功能的若干基本特征，如并行信息处理、学习、联想、模式分类、记忆等。

由线性函数和激活函数构成

线性函数：

\[f(X, W, b) = WX + b = \sum_n{w_ix_i} = [W:b][X:1] \]

激活函数：

\[\phi(x) = sign(net) = \left\{\begin{matrix} 1, net>0, & & \\ -1, otherwise & & \end{matrix}\right. \]

人工神经网络主要由大量的神经元以及他们之间的有向连接构成，主要考虑三个方面：

拓扑结构：

1957年，Frank Rossenblatt（美）提出了感知器算法。带权重的线性叠加算法。

感知机的训练过程是求解W和b的过程。正确的W和b构成的超平面 WX=0 可以将两类数据点分割在这个平面的两侧。为了找出这样的超平面需要定义目标函数。

目标函数使用误分类点到超平面s的总距离，即点到直线的距离。

损失函数：使误分类的所有样本误分类程度最低，即这些样本到超平面的距离之和最小。

感知机的损失函数：

\[L(w,b) = - \sum_{X_i \in M}{y_i(w * x_i + b)} \]

其中M是所有误分类点的集合。用梯度下降法或拟牛顿法计算最优点

感知机使用随机梯度下降。更新原则是，如果预测准确则权重不更新，否则，增加权重，使其更倾向于正确的类别。

设置 \(\theta\) 的初值和步长 \(\alpha\) 的初值，可以将他们分别设置为 0向量和1。由于感知机的解不唯一，初值的设定会影响最终迭代结果
在训练数据集中选取点 \((x(i),y(i))\) ，如果它满足 \(y(i)[\theta * x(i)] <= 0\) ，则更新参数。否则继续遍历数据寻找误分类点
对 \(\theta\) 向量进行一次随机梯度下降迭代 \(\theta = \theta + \alpha * y(i) * x(i)\)
检查训练集中是否还有误分类的点，如果没有，算法结束，此时的 \(\theta\) 为最终结果。如果有，继续第二步
说明：
- 如果两个类别线性可分，则感知器一定会收敛。此时，初始化的权值不会影响收敛
- 如果线性不可分，则感知器一定不会收敛