会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
zcry
博客园
首页
新随笔
联系
订阅
管理
2025年6月25日
大模型学习笔记(四)—— 大语言模型预训练数据
摘要: 数据处理 典型的数据处理流程如图所示,主要包括质量过滤、冗余去除、隐私消除、词元切分这几个步骤。 数据清洗 收集来的数据往往具有不一样的格式,数据清洗的目的是剔除明显的垃圾和无效内容,统一格式,包括: 格式清理:去除HTML标签、特殊符号、转义字符等。 空文本:删除空字符串或纯空格/标点。 编码错误
阅读全文
posted @ 2025-06-25 22:11 ZCry
阅读(264)
评论(0)
推荐(0)
公告