点此进入CSDN

点此添加QQ好友 加载失败时会显示




你的浏览器不支持播放哦!!nuttertools 您的浏览器不支持该播放!
摘要: 在自然语言处理当中,经常对数据集进行一些数据字符的替换,表情的替换,以便在tokenizer的时候不被识别成[unk],造成信息的缺失 常规方法使用python自带的replace方法实现,但数据量很大时,效率显得低了 比如下面的代码,处理60000条数据需要3+小时 from tqdm.noteb 阅读全文
posted @ 2023-04-12 16:56 高颜值的殺生丸 阅读(111) 评论(0) 推荐(0)

作者信息

昵称:

刘新宇

园龄:4年6个月


粉丝:1209


QQ:522414928