一周论文阅读20200419

Byte Pair Encoding is Suboptimal for Language Model Pretraining
主要比较bpe算法和unigram LM tonkenize算法的优劣，主要结论是LM tonkenize算法更优
Author2Vec: A Framework for Generating User Embedding
用作者发布的文章信息提取作者向量，bert提文章信息，然后contact最后几层的cls，用gru将这些文章向量编码，之后通过k-sparseEncoding编码成向量，最后用作者的分类任务进行pretrain。不太理解为什么用gru进行编码，作者文章信息的编码的顺序这么定？
Cross-lingual Language Model Pretraining
有同事在做这方面工作所以稍微浏览下，主要做多语言bert的bert语言模型，主要工作包括用多语言的语料训练一个单独的bpe词表。提出三个训练目标函数：CLM 知道前面的词预测下一个词；MLM 预测mask后的词是什么；TLM 采用平行语料构+language embding建的MLM object 。效果是在一些评测集上取得了较好的指标，并且能够提升一些低资源语言的性能。这种方法如果比单语言的bert好或许能说明各个语言之间也有一些共性。
unsupervised Domain Clusters in Pretrained Language Models
任务是：domain data selection 即给少量的领域语料，从大量语料中提取该领域的语料。其实就是句子的聚类，作者用bert 、gpt2、xlnet、等模型的最后一层的average pooling 作为句子向量，在某个带标签的数据集上用pca和聚类算法进行聚类，再用纯度作为指标比较各个方法，实验效果是bert优于w2v优于lda。在提取领域语料时，先将句子编码成向量，可以cosine聚类直接提取，也可以用finetune的二分类任务来做，其中领域语料为正例，大语料中根据cosine距离筛选出一部分采样作为负例

posted @ 2020-04-19 22:37 kangheng 阅读(186) 评论(0) 收藏举报

刷新页面返回顶部

kangheng

一周论文阅读20200419

公告