【算法】Bert预训练源码阅读

Bert预训练源码

作用：句子切分，特殊符号处理。
主要类：BasicTokenizer, WordpieceTokenizer, FullTokenizer

BasicTokenizer.tokenize: 文本转为unicode, 去除特殊符号，汉字前后加空格，按空格切分单词，去掉文本重音，按标点符号切割单词。最后生成一个list
WordpieceTokenizer.tokenize: 长度过长的单词标记为UNK，复合词切分，找不到的词标记为UNK
FullTokenizer：先后调用BasicTokenizer和WordpieceTokenizer

输入：词典，原始文本(空行分割不同文章，一行一句)
输出：训练数据
作用：生成训练数据，句子对组合，单词mask等
入口函数main

加载词典，加载原始文本
create_training_instances
读取原始文本文件，做unicode转换，中文，标点，特殊符号处理，空格切分，复合词切分。转换为[[[first doc first sentence],[first doc second sentence],[first doc third sentence]],[[second doc first sentence],[]],....] 这样的结构
去除空文章，文章顺序打乱
输入的原始文本会重复使用dupe_factor次
对每一篇文章生成训练数据create_instances_from_document
训练语句长度限制max_seq_length，0.1的概率生成长度较小的训练语句，增加鲁棒性
句子对(A,B)随机组合
对于一篇文章，按顺序获取n行句子，其长度总和限制为target_seq_length,
随机选取n行中的前m行作为A
0.5的概率，B是n行中后面剩余的部分；其他情况，B是随机选取的其他文章内容，开始位置是随机的
文章中没有使用的部分继续组合(A, B)
添加CLS,SEP分隔符，生成句子向量
对句子对中的单词做随机mask (create_masked_lm_predictions), 随机取num_to_predict个单词做mask，0.8的概率标记为MASK，0.1的概率标记为原始单词，0.1的概率标记为随机单词
封装，句子对，句子id，是否为随机下一句，mask的下标位置，mask对应的原始单词
训练数据序列化，存入文件。单词转为id，句子长度不足的后面补0。

BertConfig: 配置
BertModel：模型主体

建模主体过程：

作用：生成目标函数，加载已有参数，迭代训练
主要函数：model_fn_builder

posted @ 2019-02-18 21:03 匡子语阅读(2519) 评论(0) 收藏举报

刷新页面返回顶部