4/21-阴郁一整天的天气就像我的毕设进度一样(但反而有了点思路?)
今天先写了个随笔复习了一下attention,转头看了点kv cache、MLA,发现这些只能用在推理过程中,但我做的是个encoder-only结构的模型,完全用不到毕设上。
转头看看参考的论文,只能说惨不忍睹。在学完transformer、加强MLP的理解后论文看起来轻松很多——发现作者用了半个多头注意力,但是模型中具体如何处理注意力权重什么的完全没写(到底是加还是拼接,就算出来权重不乘value那权重直接就用了?),甚至没有算法流程介绍,剩下的小波什么的再说吧。倒是有点思路了,在bert下层拼一个rope和再加一个encoder_block,bilstm不行就去掉,训练慢而且双向表征已经有bert了。想法的具体代码还没有实现。
之后试着用用已经训练完的baseline是什么效果,结果有了很多发现:
对于训练集完全不包含的词语,竟然能做到识别(推测是根据训练集中的相近样本产生了泛化能力)
鲁棒性贼差,词语中加上数字1这种影响分词的就不行了(考虑之后把带pgd的练出来)
梳理一下我训练的数据流:
首先找了份腾讯的敏感词库(非常大、非常严格)找了份毒性数据集(感谢toxic_dataset,不能忘了引用),做了个模式匹配形成一个数据集。
模式匹配导致很多问题,最大的问题就是没分词导致匹配形成的数据样本看起来完全没道理。感谢我的模型在这么烂的数据集下还能产生泛化能力。
回过头来看,我的模型实际接收到的对于敏感词识别的敏感词是:
(存在在toxic_dataset中的词语)&&(存在在敏感词库的词语)
没写完,剩下的明天写
浙公网安备 33010602011771号