深度学习总结

深度面经1
    怎么解决梯度消失问题? 解答
    批量归一化的思想,还了解其他归一化吗? 解答
    说下adam的思想,Adam和Adagrad的区别
    huber函数了解吗?和l1、l2比起来优势是啥 解答
    pooling有什么意义/pooling 怎么做反向传播/max-pooling 的反向传播怎么做?解答
    感受野的理解 解答
    激活函数的意义 解答
    加速网络收敛的办法 解答
    介绍一下word2vec 解答

    BERT的两种预训练方式 解答
    了解过BERT吗,里面的三种embedding分别是什么,为什么要这样做?解答
Transformer面经1
    介绍一下transformer
    transformer里面的两种mask操作 解答
    transformer为什么要加残差啥的

    rnn,lstm,gru区别与联系
    dropout原理/dropout训练和测试有什么区别吗?解答

posted @ 2021-06-20 21:14  LuckPsyduck  阅读(40)  评论(0编辑  收藏  举报