Linux 桌面玩家指南：15. 深度学习可以这样玩

Posted on 2018-12-16 00:33 京山游侠阅读(1915) 评论(3) 编辑收藏举报

特别说明：要在我的随笔后写评论的小伙伴们请注意了，我的博客开启了 MathJax 数学公式支持，MathJax 使用$标记数学公式的开始和结束。如果某条评论中出现了两个$，MathJax 会将两个$之间的内容按照数学公式进行排版，从而导致评论区格式混乱。如果大家的评论中用到了$，但是又不是为了使用数学公式，就请使用\$转义一下，谢谢。

想从头阅读该系列吗？下面是传送门：

前言

这一篇相当于是深度学习方面的一个 Hello World 吧。深度学习目前大火，吸引了无数人。但是很多时候，想了解深度学习的人总觉得云山雾罩，怎么也看不明白。如果要是有一个能运行的简单的深度学习的例子该多好啊。我这里就来玩一玩深度学习，来一个让大家摸得着、看得见的例子，揭开深度学习的神秘面纱。语言方面，当然是选择对科学计算极度友好的 Python 啦。我当然不会从头撸代码，肯定会使用现成的库的啦。目前最流行的深度学习框架是 Keras，在 Keras 中，它又使用了大名鼎鼎的 TensorFlow 作为后端。在 Python 中，安装这几个库真的是太方便了。最后说一句，我用的是 Python3。

上一篇浮光掠影地讲了一下科学计算，并探讨了一下适合数值计算的语言需要什么样的特色。非常幸运，Python 正好具有这样的特色，准确地说，应该是 Python 中的 numpy 库正好具有这样的特色。上一篇的内容略有过时，比如 IPython Notebook，目前就已经改成 Jupyter Notebook 了。但是在这一篇中，我就不用什么 Notebook 了，我用 PyCharm。

JetBrains 大家都知道啦，JetBrains 全家桶是广大程序员的福利啦。做科学计算，使用 PyCharm 的 Community 版就足够了，没必要下载 Professional 版啦，我更加是不鼓励大家用破解版的啦。

环境安装

到 JetBrains 的官网下载最新的 PyCharm 2018.3，正如前面所说，Community 版就够了。解压，运行之，用它创建一个 Python 项目，选择使用虚拟环境，如下图：

使用虚拟环境的好处，是可以为这个项目单独安装依赖的库，不用担心为了学一个什么东西而把系统中的 Python 搞得乱七八糟。直接打开 PyCharm 中的 Terminal，就可以进入这个项目的虚拟环境，在这个 Terminal 中运行的命令，默认就在这个项目的虚拟环境中执行。我们可以在这个 Terminal 中运行pip3 install命令安装所有需要的库。在 PyCharm 中使用pip3 install命令时，有一个令人头痛的问题，那就是从国外的源下载的速度太慢，我们可以替换成国内的源。我太懒，都是使用临时替换，只需要添加-i 源地址参数就可以了。例如，要安装 numpy，并且选择从阿里云下载，就使用pip3 install numpy -i https://mirrors.aliyun.com/pypi/simple/命令。如下图：

常用的国内源有：

清华：https://pypi.tuna.tsinghua.edu.cn/simple
阿里云：https://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
华中理工大学：http://pypi.hustunique.com/
山东理工大学：http://pypi.sdutlinux.org/
豆瓣：http://pypi.douban.com/simple/

新版 Ubuntu 要求使用 https 源，要注意。

在这里，我们需要安装 numpy、keras、tensorflow、matplotlib 库，numpy 用来操作向量和矩阵，matplotlib 用来画图。为了能够读取和预处理图片，我还需要使用 PIL，可惜 PIL 不支持 Python 3，不过没关系，使用 Pillow 就好了。安装这几个库只需要如下几个命令：

pip3 install numpy -i https://mirrors.aliyun.com/pypi/simple/
pip3 install tensorflow -i https://mirrors.aliyun.com/pypi/simple/
pip3 install keras -i https://mirrors.aliyun.com/pypi/simple/
pip3 install matplotlib -i https://mirrors.aliyun.com/pypi/simple/
pip3 install Pillow -i https://mirrors.aliyun.com/pypi/simple/

这些库都直接安装到了我们的项目内，不会和系统中的 Python 起冲突。如下图：

PyCharm 最大的优势当然是它的自动代码提示了。不管是写一个.py文件，还是直接使用 PyCharm 中的 Python Console，就是有非常好的代码提示的。Python Console 还有一个非常棒的功能，就是可以观察每一个变量的值，真的是太方便了。如下图：

而在系统的终端中直接运行 Python3，我们是得不到这么好的辅助功能的。如下图：

最简单的深度学习示例

首先，我们看一个最简单的深度学习示例，就是训练一个能够识别手写数字的密集连接神经网络。在这里，我们需要一个用于训练和测试的数据集，而这个数据集就是 MNIST 数据集，该数据集包含 60000 张用于训练的 28×28 像素的手写数字图片，以及 10000 张用于训练的 28×28 像素的手写数字图片。Keras 能够自动下载该数据集。训练这个神经网络的代码如下：

from keras.datasets import mnist
from keras import models
from keras import layers
from keras.utils import to_categorical

(train_images, train_labels),(test_images, test_labels) = mnist.load_data()

network = models.Sequential()
network.add(layers.Dense(512, activation='relu', input_shape=(28*28,)))
network.add(layers.Dense(10, activation='softmax'))

network.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

train_images = train_images.reshape((60000, 28*28))
train_images = train_images.astype('float32') / 255

test_images = test_images.reshape(10000, 28*28)
test_images = test_images.astype('float32') / 255

train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

network.fit(train_images, train_labels, epochs=5, batch_size=128)

把以上这几行代码逐行输入到 PyCharm 的 Python 控制台，就可以看到效果了。当输入到(train_images, train_labels),(test_images, test_labels) = mnist.load_data()这一行时，Keras 就会自动下载 MNIST 数据集，可惜的是，由于下载地址被墙的原因，经常会出现下载失败的情况。不过出现下载失败也不用着急，用搜索引擎找一下，很容易找到这个数据集的文件：mnist.npz文件，大小才 11.5M，下载很快的。把下载的这个文件放到~/.keras/datasets目录中即可。

以上所有的代码都输入完成后，就开始了训练，在这个例子中，训练速度非常快，每个周期 4 秒多就完成了，总共 5 个周期。如下图：

可以看到，这个神经网络达到了 98.9% 的精度。下面，我自己手写一个数字测试一下。先打开 Inkscape，自己随便写一个数字，如下图：

保存为~/test.png。然后，用下面的代码把该图片读入内存，并更改大小为 28×28 像素，最后转化为灰度图像。这些操作都使用 PIL 完成。PIL 操作图像那是相当的方便。

from PIL import Image
image = Image.open('/home/youxia/test.png').resize((28,28)).convert('L')

然后，将该图像转化为 numpy 的数组，并将其中的数据处理为 0 到 1 之间的浮点数。

import numpy as np
im = np.array(image)
im = 255 - im
im = im.astype('float32') / 255.0

可以使用 matplotlib 查看一下该图像，代码如下：

import matplotlib.pyplot as plt
plt.imshow(im, cmap=plt.cm.binary)

这是我们处理好之后的图像是下面这个效果，和 MNIST 自带的图像基本基本一致:

下面使用我们前面训练的神经网络来识别该图片，使用 predict 函数即可。识别时，需要将图像数据的 shape 更改为 (1,784):

network.predict(im.reshape(1,784))

返回的值是一个包含是个数字的列表，代表该图片可能为数字 0-9 的概率，可以看到，其中第 6 项，也就是为数字 5 的概率最大，接近于 1:

array([[2.19245143e-11, 7.56166017e-13, 2.06190620e-10, 3.12406366e-04,
        1.12510295e-13, 9.99686599e-01, 8.85503199e-11, 2.70172443e-11,
        2.85677032e-07, 7.55779013e-07]], dtype=float32)

如果不想自己用眼睛去判断哪个概率值最大，可以使用 numpy 的 argmax 函数，如下：

np.argmax(network.predict(im.reshape(1,784)))

返回结果为几，就说明识别出的数字为几，如下：

从密集连接神经网络到卷积神经网络

前面的例子使用的是密集连接神经网络，每一幅图像都转化为一个以为向量进行处理。在对图像进行深度学习时，最常用的方法是二维卷积神经网络。卷积神经网络的优点一是学到的模式具有平移不变性，在图像某一个区域学习到的模式，如果模式出现在新位置，它仍然能够识别；二是卷积神经网络可以学到模式的空间层次结构。

在 Keras 中，对卷积神经网络也提供了非常强大的支持。上一节的代码，只需要进行简单的修改，就可以构建一个二维卷积神经网络，代码如下：

from keras import layers
from keras import models
from keras.datasets import mnist
from keras.utils import to_categorical


model = models.Sequential()
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)))
model.add(layers.MaxPooling2D(2, 2))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D(2, 2))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.Flatten())
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))

model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images = train_images.reshape((60000, 28, 28, 1))
train_images = train_images.astype('float32') / 255
test_images = test_images.reshape(10000, 28, 28, 1)
test_images = test_images.astype('float32') / 255

train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

model.fit(train_images, train_labels, epochs=5, batch_size=64)

主要的改变体现在以下几个方面：一是使用 Conv2D 层、MaxPooling 层和 Flatten 层修改了深度学习框架的结构，二是修改了输入数组的形状。除此之外，该深度学习框架使用的激活函数、损失函数都和前面是一样的。训练该网络，发现它比前面的网络训练起来要慢一些，但是达到了 99.3%的准确度。

使用如下代码进行验证：

import numpy as np
from PIL import Image

im = np.array(Image.open('/home/youxia/test.png').resize((28,28)).convert('L'))
im = 255 - im
im = im.astype('float32') / 255.0

print(np.argmax(model.predict(im.reshape(1, 28, 28, 1))))