08 2023 档案

摘要:首先我们回忆一下CNN: 在CNN中,输入一张图片,经过多层的卷积层,最后到输出层判别图片中的物体的类别。CNN中使用卷积层做特征提取,使用Softmax回归做预测,从某种意义上来说,特征提取可以看成是编码,Softmax回归可以看成是解码 编码器:将输入编程成中间表达形式(特征),就像上面的卷积层 阅读全文
posted @ 2023-08-25 10:37 lipu123
摘要:语言模型是自然语言处理的关键,而机器翻译是语言模型最成功的基准测试。因为机器翻译正是将输入序列转换成输出序列的序列转换模型的核心问题。序列转换模型在各类现人工智能 应用中发挥着至关重要的作用。为此,本节将介绍机器翻译 问题及其后文需要使用的数据集。 机器翻译指的是将序列从⼀种语言自动翻译成另⼀种语言 阅读全文
posted @ 2023-08-24 22:18 lipu123
摘要:在序列学习中,我们以往假设的目标是:在给定观测的情况下(例如,在时间序列的上下文中或在语言模型的上下文中),对下一个输出进行建模。虽然这是⼀个典型情景,但不是唯一的。还可能发生什么其它的情况呢?我们考虑以下三个在文本序列中填空的任务。 ![image](https://img2023.cnblogs 阅读全文
posted @ 2023-08-23 22:50 lipu123
摘要:到目前为止,我们只讨论了具有⼀个单向隐藏层的循环神经网络。其中,隐变量和观测值与具体的函数形式的交互方式是相当随意的。只要交互类型建模具有足够的灵活性,这就不是⼀个大问题。然而,对⼀个单层来说,这可能具有相当的挑战性。之前在线性模型中,我们通过添加更多的层来解决这个问题。而在循环神经网络中,我们首先 阅读全文
posted @ 2023-08-23 21:33 lipu123
摘要:例如,循环神经网络在实践中一个常见问题是数值不稳定性。尽管我们已经应用了梯度裁剪等技巧来缓解这个问题,但是仍需要通过设计更复杂的序列模型来进⼀步处理它。具体来说,我们将引⼊两个广泛使用的网络,即门控循环单元(GRU)和长短期记忆网络(LSTM)。 # 门控循环单元(GRU) 我们讨论了如何在循环神经 阅读全文
posted @ 2023-08-21 21:42 lipu123
摘要:n元语法模型,其中单词$x_t$在时间步t的条件概率仅取决于前面$n−1$个单词。对于时间步$t − (n − 1)$之前的单词,如果我们想将其可能产⽣的影响合并到$x_t$上,需要增加n,然而模型参数的数量也会随之呈指数增长,因为词表$V$需要存储$|V|^n$个数字,因此与其将$P(x_t | 阅读全文
posted @ 2023-08-20 23:13 lipu123
摘要:之前在做卷积神经网络的时候,我们特征序列都是一些数字序列,但是如果我们遇到一些文本需要将文本转化成数字序列。 # 文本预处理 1. 将文本作为字符串加载到内存中。 2. 将字符串拆分为词元(如单词和字符)。 3. 建立一个词表,将拆分的词元映射到数字索引。 4. 将文本转换为数字索引序列,方便模型操 阅读全文
posted @ 2023-08-19 11:49 lipu123
摘要:我们在堆叠更多层的时候一定会有一个更好的结果吗? 如图所示我们堆积更多层的时候,可能会有一个更差的结果。但是如果你的更多层的时候包含你的前一层的时候一定比你的前一层好。 ![image](https://img2023.cnblogs.com/blog/1914163/202308/1914163- 阅读全文
posted @ 2023-08-18 21:19 lipu123
摘要:# 1.跨通道的特征整合 比如:输入的特征是16x64x64,其中16是通道数,假如我们想要把16个通道的信息进行融合,最后输出的8个特征,那我们就需要8个$16 \times 1 \times 1$的卷积核,然后输出的特征就是$8 \times 64 \times 64$。这个8个$16 \tim 阅读全文
posted @ 2023-08-18 09:22 lipu123
摘要:# Feature Scaling(特征归一化) Feature scaling,常见的提法有"特征归一化"、"标准化",是数据预处理中的重要技术。他的重要性: (1)特征间的单位(尺度)可能不同,比如身高和体重,比如摄氏度和华氏度,比如房屋面积和房间数,一个特征的变化范围可能是[1,2,3,4.. 阅读全文
posted @ 2023-08-17 22:16 lipu123
摘要:# Inception块 当时有个疑问$1 * 1$、$3 * 3$、$5 * 5$、$Max pooling$、$Multiple 1 * 1$,到底用那个好呢? ![image](https://img2023.cnblogs.com/blog/1914163/202308/1914163-20 阅读全文
posted @ 2023-08-17 11:07 lipu123
摘要:LeNet、AlexNet和VGG都有⼀个共同的设计模式:通过一系列的卷积层与汇聚层来提取空间结构特征,然后通过全连接层对特征的表征进行处理。然而,如果使用了全连接层,可能会完全放弃表征的空间结构。NiN提供了⼀个非常简单的解决方案:在每个像素的通道上分别使用多层感知机。还有一个问题就是全连接层可能 阅读全文
posted @ 2023-08-16 17:24 lipu123
摘要:# VGG块 经典卷积神经网络的基本组成部分是下面的这个序列: 1. 带填充以保持分辨率的卷积层; 2. 非线性激活函数,如ReLU; 3. 汇聚层,如最大汇聚层。 而⼀个VGG块与之类似,由⼀系列卷积层组成,后面再加上用于空间下采样的最大汇聚层。原文中作者使用3 × 3卷积核、填充为1(保持高度和 阅读全文
posted @ 2023-08-16 11:17 lipu123
摘要:在上世纪90年代初到2012年之间的大部分时间里,神经网络往往被其他机器学习方法超越。深度卷积神经网络的突破出现在2012年。突破可归因于两个关键因素。 * 数据 * 硬件(GPU) ![image](https://img2023.cnblogs.com/blog/1914163/202308/1 阅读全文
posted @ 2023-08-16 09:36 lipu123
摘要:# LeNet 总体来看,LeNet(LeNet-5)由两个部分组成: • 卷积编码器:由两个卷积层组成; • 全连接层密集块:由三个全连接层组成。 ![image](https://img2023.cnblogs.com/blog/1914163/202308/1914163-2023081521 阅读全文
posted @ 2023-08-15 22:27 lipu123
摘要:# 池化层 在现实生活中,如果我们拍摄黑白之间轮廓清晰的图像X,并将整个图像向右移动一个像素,即$Z[i, j]=X[i, j + 1]$,则新图像Z的输出可能大不相同。而在现实中,随着拍摄角度的移动,任何物体几乎不可能发生在同一像素上。即使用三脚架拍摄一个静止的物体,由于快门的移动而引起的相机振动 阅读全文
posted @ 2023-08-15 10:22 lipu123
摘要:彩色图像具有标准的RGB通道来代表红、绿和蓝。但是到目前为止,我们仅展示了单个输入和单个输出通道的简化例子。这使得我们可以将输入、卷积核和输出看作二维张量。 当我们添加通道时,我们的输入和隐藏的表示都变成了三维张量。例如,每个RGB输入图像具有$3 × h × w$的形状。我们将这个大小为3的轴称为 阅读全文
posted @ 2023-08-14 17:32 lipu123
摘要:正如前面所说的: 假设输入形状为$n_h × n_w$,卷积核形状为$k_h × k_w$,那么输出形状将是$(n_h − k_h + 1) × (n_w − k_w + 1)$。因此,卷积的输出形状取决于输入形状和卷积核的形状。 假如有一个$240 × 240$像素的图像,经过10层$5 × 5$ 阅读全文
posted @ 2023-08-14 16:09 lipu123
摘要:# 二维卷积层计算 ![image](https://img2023.cnblogs.com/blog/1914163/202308/1914163-20230813203947264-374959244.png) * 输入 X : $n_h * n_w$ * 卷积核 W : $k_h * k_w$ 阅读全文
posted @ 2023-08-13 22:27 lipu123
摘要:要想时使用GPU,首先要先安装CUDA和GPU版的torch # 计算设备 我们可以指定用于存储和计算的设备,如CPU和GPU。默认情况下,张量是在内存中创建的,然后使⽤CPU计算它。在PyTorch中,CPU和GPU可以用torch.device('cpu') 和torch.device('cud 阅读全文
posted @ 2023-08-12 10:48 lipu123
摘要:# 加载和保存张量 对于单个张量,我们可以直接调用load和save函数分别读写它们。这两个函数都要求我们提供一个名称,save要求将要保存的变量作为输入。 ``` import torch from torch import nn from torch.nn import functional a 阅读全文
posted @ 2023-08-12 09:39 lipu123
摘要:# 层和块 单个神经网络 (1)接受一些输入; (2)生成响应的标量输出; (3)具有一组相关参数(parameters),更新这些参数可以优化某目标函数。 然后,当考虑具有多个输出的网络时,我们利用矢量化算法来描述整层神经元。像单个神经元一样,层: (1)接受一组输入 (2)生成相应的输出 (3) 阅读全文
posted @ 2023-08-11 23:34 lipu123
摘要:安装: ``` pip install autogluon ``` # 官网实例 目的:预测一个人的收入是否超出5万美元 ``` from autogluon.tabular import TabularDataset, TabularPredictor ``` ## 数据读入 这里的这个Tabul 阅读全文
posted @ 2023-08-11 16:14 lipu123
摘要:# 下载和缓存数据集 ``` import hashlib import os import tarfile import zipfile import requests ``` 下面的download函数用来下载数据集,将数据集缓存在本地目录(默认情况下为../data)中,并返回下载文件的名称。 阅读全文
posted @ 2023-08-10 16:57 lipu123
摘要:# 神经网络的梯度 考虑⼀个具有$t$层(注意这里的t表示的是层)、输入$x$和输出$y$的深层网络。每⼀层$t$由变换$f_t$定义,该变换的参数为权重$W^{(t)}$,其隐藏变量是$h^{(t)}$(令$h^{(0)} = x$)。我们的网络可以表示为: $$h^t=f_t(h^{t−1})\ 阅读全文
posted @ 2023-08-10 10:01 lipu123
摘要:# 正则化: **正则化:凡是能够减少泛化误差,而不是减少训练误差的方法就是正则化方法,也就是说能够减少过拟合的方法。** 在训练参数化机器学习模型时,权重衰减(weight decay)是广泛使用的正则化的技术之一,它通常也被 称为L2正则化。 # 权重衰减 在神经网络中我们有参数w和b,w是权重 阅读全文
posted @ 2023-08-09 11:18 lipu123
摘要:# 训练误差和泛化误差 - **训练误差:模型在训练数据上的误差** - **泛化误差:模型在新数据上的误差** 例子:根据摸考成绩来预测未来考试分数 - 在过去的考试中表现很好(训练误差)不代表未来考试一定会好(泛化误差) - 学生A通过背书在摸考中拿到很好成绩 - 学生B知道答案后面的原因 类似 阅读全文
posted @ 2023-08-06 16:34 lipu123
摘要:# 感知机 早期1960年的感知机,每一根线就是一个权重。 ![image](https://img2023.cnblogs.com/blog/1914163/202308/1914163-20230805180516679-1949749893.png) 给定输入x,权重w,和偏移b,感知机输出: 阅读全文
posted @ 2023-08-05 22:26 lipu123
摘要:# 分类问题 ## 什么是分类问题 回归 vs 分类 ·回归估计一个连续值 ·分类预测一个离散类别 例如:![image](https://img2023.cnblogs.com/blog/1914163/202308/1914163-20230804150323504-36478924.png) 阅读全文
posted @ 2023-08-05 11:06 lipu123
摘要:# 线性回归 - 一个简化模型 假设1:影响房价的关键因素是卧室个数,卫生间个数和居住面积,记为$x_1,x_2,x_3$ 假设2:成交价是关键因素的加权和$y=w_1*x1+w_2*x_2+w_3*x_3+b$ ## 线性模型 - 给定n维输入 $x=[x_1,x_2,....x_n]^T$ - 阅读全文
posted @ 2023-08-03 23:20 lipu123 阅读(166) 评论(0) 推荐(0)
摘要:# 1 标量的导数 ![image](https://img2023.cnblogs.com/blog/1914163/202308/1914163-20230801204951013-651864837.png) # 2 亚导数 比如说$y=|x|$这个函数在x=0的时候时不可导的。当x>0,其到 阅读全文
posted @ 2023-08-02 23:29 lipu123 阅读(239) 评论(0) 推荐(0)