摘要: 数据处理 典型的数据处理流程如图所示,主要包括质量过滤、冗余去除、隐私消除、词元切分这几个步骤。 数据清洗 收集来的数据往往具有不一样的格式,数据清洗的目的是剔除明显的垃圾和无效内容,统一格式,包括: 格式清理:去除HTML标签、特殊符号、转义字符等。 空文本:删除空字符串或纯空格/标点。 编码错误 阅读全文
posted @ 2025-06-25 22:11 ZCry 阅读(264) 评论(0) 推荐(0)