10.7.2 基于位置的前馈网络

注意，我们这里必须要将输入的前两维（batch_size和num_steps）结合起来，而不能将后两维（num_steps和dimension）结合起来，因为这里num_steps是变化的（num_steps是我们指定的超参数，指定之后编码器-解码器的确只能处理固定长度的序列，因为有truncate_pad；但是我们指定的值是可以变化的），而前面的卷积神经网络部分是不用变化的，所以可以把后两维结合起来