Cross结构 【转载】

cross结构其实一直在用,但是不会说。 所以找相关的描述链接。

来源:21个经典深度学习句间关系模型|代码&技巧 - 忆臻的文章 - 知乎 https://zhuanlan.zhihu.com/p/358260721

 

双塔式模型也称孪生网络、Representation-based,就是用一个编码器分别给两个文本编码出句向量,然后把两个向量融合过一个浅层的分类器;交互是也称Interaction-based,就是把两个文本一起输入进编码器,在编码的过程中让它们相互交换信息,再得到最终结果。如下图:

两种框架比较的话,交互式通常准确率会高一些,毕竟编码器能使用的信息更多了,而双塔式的速度会快很多,比如线上来一个query,库里有一百万个候选,等交互式算完了用户都走了,但双塔式的候选可以提前计算好,只用给query编码后去和候选向量进行浅层计算就好了。工程落地的话,通常会用双塔式来做召回,把一百万个候选缩减为10个,再对这10个做更精细的计算。

所以说这两种方式都是实际应用中必不可缺的,两个方向也都有着不少的模型:

下面我们就先讲讲双塔式模型的SOTA发展。这里面通常有三个点可以优化:encoder、merged_vec、classifier,大部分研究都在专注提升encoder的能力。我个人主要将双塔的发展分为词袋、有监督、预训练+迁移三个阶段。



作者:忆臻
链接:https://zhuanlan.zhihu.com/p/358260721
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

 

posted on 2022-09-16 21:03  nlp如此迷人  阅读(121)  评论(0)    收藏  举报

导航