第一次作业：深度学习基础

2.1数据操作

首先安装实验所需的d2l库

!pip install git+https://github.com/d2l-ai/d2l-zh@release

2.1.1关于张量的数据操作

首先导入torch

torch.arrange(n)作用是生成一个0到n-1的行向量

通过张量的shape属性来访问张量的形状

x.numel()可以输出张量的元素个数

输入：

import torch
x = torch.arange(12)
print(x)
print(x.shape)
print(x.numel())

输出：

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])
torch.Size([12])
12

要改变一个张量的形状而不改变元素数量和元素值，可以调用reshape函数。reshape函数通过改变张量的形状，但张量的大小不会改变。

X = x.reshape(3, 4)
X

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

torch.zeros(),torch.ones()生成一个指定大小的全0或全1的张量。

torch.zeros((2, 3, 4))

torch.zeros((2, 3, 4))
tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

torch.tensor()函数生成一个指定数值的张量。

torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

torch.randn()创建一个张量。其中的每个元素都从均值为0、标准差为1的标准高斯（正态）分布中随机采样。

torch.randn(3, 4)

tensor([[-0.0256, -0.1554, -0.7813, -1.6794],
        [-0.7172,  0.4402, -0.3877,  1.4351],
        [ 0.8585,  1.7536, -1.4469,  0.9900]])

2.1.2运算

张量的基本运算，其中x**y是对x求y次方。

x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])
x + y, x - y, x * y, x / y, x ** y

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]))

张量可以按轴连接，轴0是第一维，轴1是第二维，也就是按行列。

X = torch.arange(12, dtype=torch.float32).reshape((3,4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
torch.cat((X, Y), dim=0), torch.cat((X, Y), dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

x==y来判断两个张量是否相等。

X == Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

X.sum()对张量的元素求和

X.sum()

tensor(66.)

2.1.3. 广播机制

当张量形状不同时可以调用广播机制来来执行按元素操作。

通过适当复制元素来扩展一个或两个数组，以便在转换之后，两个张量具有相同的形状，然后对生成的数组执行按元素操作。

在大多数情况下，我们将沿着数组中长度为1的轴进行广播。

a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
print(a)
print(b)
print(a+b)

tensor([[0],
        [1],
        [2]])
tensor([[0, 1]])
tensor([[0, 1],
        [1, 2],
        [2, 3]])

2.1.4. 索引和切片

可以用[-1]选择最后一个元素，可以用[1:3]选择第二个和第三个元素。

X[-1], X[1:3]

(tensor([ 8.,  9., 10., 11.]), tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]))

如果想为多个元素赋值相同的值，我们只需要索引所有元素，然后为它们赋值。

X[0:2, :] = 12
X

tensor([[12., 12., 12., 12.],
        [12., 12., 12., 12.],
        [ 8.,  9., 10., 11.]])

2.1.5. 节省内存

运行一些操作可能会导致为新结果分配内存。例如，如果我们用Y=X+Y，我们将取消引用Y指向的张量，而是指向新分配的内存处的张量。

id函数演示了这一点，它给我们提供了内存中引用对象的确切地址。

before = id(Y)
Y = Y + X
id(Y) == before

False

可以使用切片表示法将操作的结果分配给先前分配的数组（该张量不参与运算时）该张量的地址不会发生改变
torch.zeros_like(y)分配一个全0

Z = torch.zeros_like(Y)
print('id(Z):', id(Z))
Z[:] = X + Y
print('id(Z):', id(Z))

id(Z): 140272150341696
id(Z): 140272150341696

如果在后续计算中没有重复使用X，我们也可以使用X[:]=X+Y或X+=Y来减少操作的内存开销。

before = id(X)
X += Y
id(X) == before

True

2.1.6. 转换为其他 Python 对象

使用torch.tensor()将numpy转换为张量，反之可以通过.numpy()函数转换。

A = X.numpy()
B = torch.tensor(A)
type(A), type(B)

(numpy.ndarray, torch.Tensor)

要将大小为1的张量转换为Python标量，我们可以调用item函数或Python的内置函数。 item()返回的是一个浮点型数据，所以使用item（）时取得的精度更高。

a = torch.tensor([3.5])
a, a.item(), float(a), int(a)

(tensor([3.5000]), 3.5, 3.5, 3)

2.2. 数据预处理

2.2.1. 读取数据集

创建一个人工数据集，并存储在csv（逗号分隔值）文件，导入pandas包并调用read_csv函数从创建的csv文件中加载原始数据集。

import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')
import pandas as pd

data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000

2.2.2. 处理缺失值

为了处理确实的数值，典型的方法是插入和删除，其中插值用替代值代替缺失值，而删除则忽略缺失值。这里选择插入处理。

inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())
print(inputs)
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

get_dummies（）函数对数据进行分类标记，当dummy_na=ture时，将保留分类变量中的缺失值，将其单独作为一列。

使用.iloc()函数取excel数据中特定列数据。

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN
   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1

2.2.3. 转换为张量格式

现在inputs和outputs中的所有条目都是数值类型，它们可以转换为张量格式。

import torch

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

2.3. 线性代数

2.3.1.矩阵

对称矩阵的转置矩阵与原矩阵相等

B = torch.tensor([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
B == B.T

tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])

2.3.2.张量

给定具有相同形状的任意两个张量，任何按元素二元运算的结果都将是相同形状的张量。

A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone()  # 通过分配新内存，将A的一个副本分配给B
A, A + B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]), tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))

2.3.3.降维

调用求和函数会沿所有的轴降低张量的维度，使它变为一个标量。还可以指定张量沿哪一个轴来通过求和降低维度。

A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
A_sum_axis0 = A.sum(axis=0)
A_sum_axis0, A_sum_axis0.shape

输入矩阵沿0轴降维以生成输出向量，因此输入的轴0的维数在输出形状中丢失。

(tensor([40., 45., 50., 55.]), torch.Size([4]))

沿着行和列对矩阵求和，等价于对矩阵的所有元素进行求和。

A.sum(axis=[0, 1])  # Same as `A.sum()`

tensor(190.)

计算平均值的函数也可以沿指定轴降低张量的维度。

A.mean(axis=0), A.sum(axis=0) / A.shape[0]

(tensor([ 8.,  9., 10., 11.]), tensor([ 8.,  9., 10., 11.]))

2.3.4.非降维求和

利用广播机制进行求平均等运算保持轴数不变

sum_A = A.sum(axis=1, keepdims=True)
print(sum_A)
A / sum_A

tensor([[ 6.],
        [22.],
        [38.],
        [54.],
        [70.]])
tensor([[0.0000, 0.1667, 0.3333, 0.5000],
        [0.1818, 0.2273, 0.2727, 0.3182],
        [0.2105, 0.2368, 0.2632, 0.2895],
        [0.2222, 0.2407, 0.2593, 0.2778],
        [0.2286, 0.2429, 0.2571, 0.2714]])

想沿某个轴计算A元素的累积总和，比如axis=0（按行计算），我们可以调用cumsum函数。此函数不会沿任何轴降低输入张量的维度。

A.cumsum(axis=0)

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  6.,  8., 10.],
        [12., 15., 18., 21.],
        [24., 28., 32., 36.],
        [40., 45., 50., 55.]])

2.3.5.点积

点积是相同位置的按元素乘积的和，可以通过.dot()函数求矩阵点积

y = torch.ones(4, dtype = torch.float32)
x = torch.arange(4, dtype=torch.float32)
x, y, torch.dot(x, y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.))

也可以通过执行按元素乘法，然后进行求和来表示两个向量的点积

torch.sum(x * y)

tensor(6.)

2.3.6.矩阵-向量积

就是线性代数的知识的代码实现。

A.shape, x.shape, torch.mv(A, x)

(torch.Size([5, 4]), torch.Size([4]), tensor([ 14.,  38.,  62.,  86., 110.]))

2.3.7.矩阵-矩阵乘法

我们可以将矩阵-矩阵乘法

B = torch.ones(4, 3)
torch.mm(A, B)

tensor([[ 6.,  6.,  6.],
        [22., 22., 22.],
        [38., 38., 38.],
        [54., 54., 54.],
        [70., 70., 70.]])

2.3.8.范数

L₂范数是向量元素平方和的平方根

u = torch.tensor([3.0, -4.0])
torch.norm(u)

tensor(5.)

L₁范数是所有元素绝对值的和

torch.abs(u).sum()

tensor(7.)

矩阵的弗罗贝尼乌斯范数（Frobenius norm）是矩阵元素平方和的平方根

torch.norm(torch.ones((4, 9)))

tensor(6.)

2.4自动求导

2.4.1反向传播

该代码是对y=2x^Tx函数关于列向量x求导。

requires_grad用于说明当前量是否需要在计算中保留对应的梯度信息,默认值为False

通过调用反向传播函数backward()来自动计算y关于x每个分量的梯度。

import torch
x = torch.arange(4.0)
x.requires_grad_(True)  # 等价于 `x = torch.arange(4.0, requires_grad=True)`
print(x.grad)  # 默认值是None
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)
x.grad == 4 * x

None
tensor([ 0.,  4.,  8., 12.])
tensor([True, True, True, True])

x.grad默认的初始值为None

默认情况下，PyTorch会累积梯度，我们需要使用.grad.zero_()清除之前的值

x.grad.zero_()
y = x.sum()
y.backward()
x.grad

tensor([1., 1., 1., 1.])

2.4.2. 非标量变量的反向传播

当y不是标量时，向量y关于向量x的导数的最自然解释是一个矩阵。对于高阶和高维的y和x，求导的结果可以是一个高阶张量。

# 对非标量调用`backward`需要传入一个`gradient`参数，该参数指定微分函数关于`self`的梯度。在我们的例子中，我们只想求偏导数的和，所以传递一个1的梯度是合适的
x.grad.zero_()
y = x * x
# 等价于y.backward(torch.ones(len(x)))
y.sum().backward()
x.grad

tensor([0., 2., 4., 6.])

2.4.3. 分离计算

有时，我们希望将某些计算移动到记录的计算图之外。例如，假设y是作为x的函数计算的，而z则是作为y和x的函数计算的。现在，想象一下，我们想计算z关于x的梯度，但由于某种原因，我们希望将y视为一个常数，并且只考虑到x在y被计算后发挥的作用。

在这里，我们可以分离y来返回一个新变量u，该变量与y具有相同的值，但丢弃计算图中如何计算y的任何信息。换句话说，梯度不会向后流经u到x。因此，下面的反向传播函数计算z=u*x关于x的偏导数，同时将u作为常数处理，而不是z=x*x*x关于x的偏导数。

x.grad.zero_()
y = x * x
u = y.detach()
z = u * x

z.sum().backward()
x.grad == u

tensor([True, True, True, True])

2.4.4. 控制流的梯度计算

使用自动求导的一个好处是，即使构建函数的计算图需要通过Python控制流（例如，条件、循环或任意函数调用），我们仍然可以计算得到的变量的梯度。在下面的代码中，while循环的迭代次数和if语句的结果都取决于输入a的值。

f函数在其输入a中是分段线性的。换言之，对于任何a，存在某个常量标量k，使得f(a)=k*a，其中k的值取决于输入a。因此，d/a允许我们验证梯度是否正确。

def f(a):
  b=a*2
  while b.norm()<1000:
    b=b*2
  if b.sum()>0:
    c=b
  else:
    c=100*b
  return c
a=torch.randn(size=(),requires_grad=True)
print(a)
d=f(a)
d.backward()
a.grad==d/a

tensor(-0.5575, requires_grad=True)
tensor(True)

疑问

1.为什么X[:]=x+y会比Y=X+Y减少内存分配（上文标绿处）

2.利用广播机制进行求平均等运算保持轴数不变

sum_A = A.sum(axis=1, keepdims=True)

keepdims=true执行完后，生成的是5行一列，也是两个轴啊，那最后一行代码A / sum_A意义是什么？（不是很理解）

tensor([[ 6.],
        [22.],
        [38.],
        [54.],
        [70.]])

3.对降维再求导有点难理解

感想

经过一周的学习感觉自己在理解一些数学推导上有点困难，得再加把劲。李沐老师的动手学深度学习从很基础讲起，听课感觉没之前想的困难，所以要更努力得学习了。

posted @ 2021-09-05 19:38 梁森阅读(284) 评论(1) 收藏举报

刷新页面返回顶部