摘要:
分类与回归问题可选用全连接神经网络建模。隐藏层一般用ReLU激活函数。 训练网络时由简单->复杂,避免严重的过拟合。多分类中间节点数不能少于类别数 输出层根据问题类型选择激活函数与loss Task Activate_function Loss_function 二分类 sigmoid binary 阅读全文
posted @ 2022-03-22 13:52
ArdenWang
阅读(126)
评论(0)
推荐(0)
摘要:
Transformer为什么需要MHSA 将模型分为多个head,形成多个子空间,可以使模型关注到不同方面的信息,最终再综合各方面信息。 多次attention综合的效果可以起到增强模型的作用,也可类比CNN中同时使用多个卷积核的作用。 直观上讲,MHSA利于 capture more valuab 阅读全文
posted @ 2022-03-22 09:24
ArdenWang
阅读(105)
评论(0)
推荐(0)

浙公网安备 33010602011771号