关于CRF层的学习率【转载以学习、回忆】
摘要:
面试的时候 会有人问你针对BERT+CRF这种模型做出了什么调参? 这里其实可以答换用不同的BERT 比说哈工大版本的wwm这种整词遮蔽的BERT天然适合识别词级别的任务。 还可以答优化了CRF层的学习率参数,这里呢是以前看到苏神的帖子了解到的,不过又记不太清了,因此转载苏神的文章以学习、回忆。 来 阅读全文
posted @ 2022-05-23 15:41 nlp如此迷人 阅读(261) 评论(0) 推荐(0)
浙公网安备 33010602011771号