model parallel

模型并行，深度学习的计算其实主要是矩阵运算，而在计算时这些矩阵都是保存在内存里的，如果是用GPU卡计算的话就是放在显存里，可是有的时候矩阵会非常大，比如在CNN中如果num_classes达到千万级别，那一个FC层用到的矩阵就可能会大到显存塞不下。这个时候就不得不把这样的超大矩阵给拆了分别放到不同的卡上去做计算，从网络的角度来说就是把网络结构拆了，其实从计算的过程来说就是把矩阵做了分块处理。这里再放一张网上盗的图表示下模型并行：

作者：李哲龙
链接：https://www.zhihu.com/question/53851014/answer/158794752
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。