深度学习笔记——序言

序言

纸上得来终觉浅，绝知此事要躬行。

与其设计一个解决问题的程序，不如从最终需求入手来寻找一个解决方案。

核心思想：用数据编程

目前机器学习和深度学习应用共同的核心思想：用数据编程。

机器学习
- 讨论各式各样适用于不同问题的函数形式
- 如何使用数据来有效的获取函数参数具体价值
- 深度学习是机器学习中的一类函数，形式通常为多层神经网络
深度学习处理复杂高纬度数据
- 处理图像
- 文本预料
- 声音信号
- ......

起源

自古以来，人类一直渴望从数据中分析出预知未来的窍门。

数据分析正是大部分自然科学的本质，从日常观测中提取规则，并找寻不确定性。

历史渊源
- 雅各比·伯努利（1655–1705）提出了描述只有两种结果的随机过程（例如抛掷⼀枚硬币）的伯努利分布
- 卡尔·弗里德里希·高斯（1777–1855）发明了今日仍广泛使用在从保险计算到医学诊断等领域的最小二乘法
- 雅各比·科贝尔（1460–1533）的几何书中记载了使用16 名男子的平均脚长来估计男子的平均脚长
- 罗纳德·费雪（1890–1962）对于统计学理论和统计学在基因学中的应⽤功不可没。他发明的许多算法和公式，例如线性判别分析和费雪信息仍经常被使用。即使是他在1936 年发布的Iris 数据集，仍然偶尔被用于演示机器学习算法
- 克劳德·香农（1916–2001）的信息论以及阿兰·图灵（1912–1954）的计算理论也对机器学习有深远影响。图灵在他著名的论文《计算机器与智能》中提出了“机器可以思考吗？“
- 唐纳德·赫布（1904–1985）在他开创性的著作《行为的组织》中，他提出神经是通过正向强化来学习的，即赫布理论。赫布理论是感知机学习算法的原型，并成为支撑今日深度学习的许许多多的随机梯度下降算法的基石：
  - 强化合意的行为、惩罚不合意的行为，最终获得优良的神经网络参数
- 亚历山大·贝恩（1818–1903）和查尔斯·斯科特·谢灵顿（1857–1952）。研究者们尝试组建模仿神经元互动的计算电路。随着时间发展，神经网络的生物学解释被稀释，但仍保留了这个名字。时至今日，绝大多数神经网络都包含以下的核心原则：
  - 交替使用线性与非线性处理单元，经常被称为“层”
  - 使用链式法则（即反向传播）来更新网络的参数

发展

年代	数据样本个数	内存	每秒浮点计算数
1970	100（Iris）	1 KB	100 K（Intel 8080）
1980	1 K（波士顿房价）	100 KB	1 M（Intel 80186）
1990	10 K（手写字符识别）	10 MB	10 M（Intel 80486）
2000	10 M（网页）	100 MB	1 G（Intel Core）
2010	10 G（广告）	1 GB	1 T（Nvidia C2050）
2020	1 T（社交网络）	100 GB	1 P（Nvidia DGX-2）

很显然，存储容量没能跟上数据量增⻓的步伐。与此同时，计算力的增长盖过了数据量的增长。这样的趋势使得统计模型可以在优化参数上投资更多的计算力量，但同时需要提高存储的利用效率，例如使用非线性单元。这也相应导致了机器学习和统计学的最优选择从广义线性模型及核心法变化为深度多层神经⽹络。这样的变化正是诸如多层感知机、卷积神经网络、长短期记忆循环神经网络和Q- 学习等深度学习的支柱模型在过去十年从坐了数十年的冷板凳上站起来被“重新发现”的原因。

特点

人工智能
- 机器学习
  
  研究范围：如何利用既有的经验或知识使得计算机系统能够以更接近人类的方式处理问题
  
  表征学习：如何自动找出表示数据的合适方式，以便更好的将输入变换为正确的输出
  - 深度学习
    
    具有多级表示的表征学习方法，由许多简单函数复合而成的函数，可以逐级表示越来越抽象的概念或模式
    - 端到端的训练
    - 对非最优解的包容
    - 对非凸非线性优化的使用
    - 勇于尝试没有被证明过的方法