PaddlePadlle深度学习框架学习笔记②
人工智能学习笔记(一):初探机器学习与深度学习的脉络
从牛顿第二定律的经典实验到神经网络的崛起,理解AI如何“学习”世界
1.2 机器学习和深度学习综述
人工智能(AI)领域的发展日新月异,其中机器学习(ML) 和深度学习(DL) 作为核心驱动力,正在深刻改变我们解决问题的模式。它们的关系可以概括为:
人工智能 (AI) ⊃ 机器学习 (ML) ⊃ 深度学习 (DL)
1.2.1 人工智能、机器学习、深度学习的关系
- 人工智能 (AI): 最广泛的概念,目标是让机器模拟或实现人类的智能行为(如学习、推理、决策)。
- 机器学习 (ML): AI的核心实现途径之一。 其核心在于:让计算机系统不依赖于显式编程指令,而是通过“经验”(数据)自动改进其性能。
- 深度学习 (DL): 机器学习的一个强大子领域。 它利用深层神经网络(模仿人脑神经元结构)来学习数据中的复杂模式和表示,尤其在处理图像、语音、文本等非结构化数据上表现卓越。
1.2.2 机器学习:让数据驱动决策
1.2.2.1 机器学习的实现原理
机器学习的核心思想是“学习一个函数(模型)”。其过程可抽象为:
- 输入数据 (Input Data): 收集用于学习的样本(例如:牛顿第二定律实验中的力
F和质量m数据)。 - 定义模型 (Model): 选择一个数学结构来表示输入
X和预期输出Y之间的关系(例如:Y = w1 * X1 + w2 * X2 + ... + b,线性模型)。 - 定义损失函数 (Loss Function): 量化模型预测
Ŷ与真实值Y之间的差距(例如:均方误差MSE = (1/n) * Σ(Ŷi - Yi)²)。 - 优化算法 (Optimization Algorithm): 自动调整模型参数(如
w1, w2, ..., b)以最小化损失函数(例如:梯度下降法)。
1.2.2.2 机器学习的实施方法
- 监督学习: 数据包含明确的输入
X和对应的标签Y。模型学习X -> Y的映射关系(例如:分类、回归)。 - 无监督学习: 数据只有输入
X,没有标签。模型学习数据中的内在结构或模式(例如:聚类、降维)。 - 强化学习: 智能体通过与环境交互获得的奖励/惩罚信号来学习最优行为策略。
案例:机器如何从牛顿第二定律实验中学习?
假设我们有一组实验数据:对已知质量 m 的物体施加不同的力 F,测量其加速度 a。
- 目标: 学习模型
F = f(m, a)。 - 模型选择: 根据物理定律,我们假设模型为线性关系:
F = w * (m * a) + b(理想情况下b=0,w=1,即F = m*a)。 - 数据:
X = [m1*a1, m2*a2, ..., mn*an],Y = [F1, F2, ..., Fn]。 - 损失函数:
MSE = (1/n) * Σ( (w * Xi + b) - Yi )²。 - 优化: 使用梯度下降法:
- 初始化参数
w,b(如随机值)。 - 计算损失函数对
w和b的梯度(导数)。 - 沿梯度反方向(减小损失的方向)更新参数:
w = w - learning_rate * ∂MSE/∂w,b = b - learning_rate * ∂MSE/∂b。 - 重复计算梯度和更新,直到损失足够小或稳定。
- 初始化参数
- 结果: 学习到的
w应接近1,b应接近0。模型F_pred = w * (m * a) + b ≈ m * a即牛顿第二定律。
如何确定模型结构?
- 领域知识: 牛顿定律案例中,物理知识直接指导我们选择了
F = w*(m*a) + b的线性模型。 - 模型复杂度: 简单问题(如线性关系)用简单模型(线性回归);复杂问题(如图像识别)需要复杂模型(神经网络)。需在拟合能力(描述训练数据)和泛化能力(预测新数据)间平衡。
- 数据驱动探索: 尝试不同模型(决策树、SVM、神经网络等),通过交叉验证评估性能来选择最佳模型。
1.2.3 深度学习:神经网络的复兴与爆发
1.2.3.1 神经网络的基本概念
- 神经元: 模拟生物神经元的基本计算单元。接收输入信号
x1, x2, ..., xn,进行加权求和z = Σ(wi * xi) + b,然后通过激活函数f(z)(如 ReLU, Sigmoid)产生输出。 - 网络结构: 多个神经元分层连接(输入层、隐藏层、输出层)。信息从输入层流向输出层。
- “深度”的含义: 指包含多个(通常 >2 层)隐藏层的神经网络。深度结构赋予其强大的特征学习和表示能力。
1.2.3.2 深度学习的发展历程
- 萌芽 (1940s-1960s): McCulloch & Pitts 神经元模型,感知机(Perceptron)提出。
- 寒冬 (1970s-1980s): 感知机局限性(无法解决异或问题)被指出,研究遇冷。反向传播算法(BP)虽被提出但未受重视。
- 复兴 (1980s-1990s): BP 算法被重新发现并用于训练多层网络(浅层神经网络)。受限于算力和数据,效果有限。
- 突破与爆发 (2006至今):
- Hinton 等提出“深度学习”概念,解决深度网络训练难题(如逐层预训练)。
- 算力提升: GPU 并行计算。
- 大数据涌现。
- 算法创新: ReLU、Dropout、BatchNorm、更优化的网络结构(CNN, RNN, Transformer)。
- 标志事件: 2012 年 AlexNet 在 ImageNet 图像识别竞赛中大幅超越传统方法,引爆深度学习热潮。
1.2.3.3 深度学习的研究和应用蓬勃发展
深度学习已成为 AI 前沿研究的绝对主力,应用场景爆炸式增长:
- 计算机视觉 (CV): 图像分类、目标检测、人脸识别、自动驾驶。
- 自然语言处理 (NLP): 机器翻译、文本生成、情感分析、智能客服(如 ChatGPT)。
- 语音识别与合成。
- 推荐系统。
- 药物发现、生物信息学。
- 游戏 AI(如 AlphaGo)。
1.2.3.4 深度学习改变了 AI 应用的研发模式
深度学习带来了一场范式变革:
- 特征工程的弱化: 传统 ML 极度依赖专家手工设计特征。DL 通过多层非线性变换,自动从原始数据中学习层次化的特征表示,减少了对人工特征工程的依赖。
- 端到端学习: 可以直接输入原始数据(如图像像素、文本字符),输出最终结果(如图像类别、翻译后的句子),简化了处理流程。
- 数据驱动的核心地位: 深度模型的强大能力高度依赖于海量的标注数据。
- 算力成为关键基础设施: 训练大型深度模型需要强大的计算资源(GPU/TPU 集群)。
- 开源框架的普及: TensorFlow, PyTorch 等框架极大降低了研发门槛,促进了社区发展和创新。
1.2.4 人工智能的职业发展空间广阔
(1)市场需求:长期稳健增长 vs 短期爆发
AI 产业增长曲线:
预计未来十年保持 30%~40% 的年增长率,显著高于传统行业。
应用场景从互联网向 金融、工业、医疗、教育、交通等全行业渗透,潜力巨大但落地周期较长。
与互联网行业的对比:
互联网(如移动互联网)曾出现 年增长率 >100% 的爆发期,但周期短(约10年),易快速饱和(如2022年人才过剩)。
AI 岗位需求曲线更平缓持久(如图17),对求职者更友好,避免短期泡沫风险。

核心结论: AI 岗位需求是“长坡厚雪型”,提供更稳定的职业发展通道。
(2)复合型人才成为市场刚需
人才定义: 同时具备 行业场景知识 + AI 技术理论 + 工程实践能力 的跨界人才。
稀缺性原因:
需深度结合产业经验与技术创新,培养周期长、供给增长慢。
企业落地 AI 亟需此类人才解决“技术-业务”鸿沟。
职业优势:
在产业长期增长与人才短缺的双重作用下,复合型 AI 人才将获得持续高经济回报。
1-1题:
1.类比牛顿第二定律的案例,在你的工作和生活中还有哪些问题可以用监督学习的框架来解决?模型假设和参数是什么?评价函数(损失)是什么?
答:每个案例均遵循监督学习框架:定义问题 → 构建特征(X)和标签(Y)→ 选择模型假设 → 优化参数 → 定义损失函数
模型假设:对现实规律的数学抽象(线性/非线性)
参数:规律中各项因素的权重(w 值越大影响越强)
损失函数:量化“认知错误”的代价函数(MAE/交叉熵等)
2.为什么说深度学习工程师有发展前景?怎样从经济学(市场供需)的角度做出解读?
答:大势所趋?不知道经济学...但之后创新越来愈难时间成本大,但收益也高

浙公网安备 33010602011771号