摘要: 数据清洗与预处理 做了什么:去除 HTML 标签、去重、分词(使用 Jieba 或 THULAC)。 学到什么:掌握文本数据清洗方法,理解分词算法的原理。 遇到的问题:分词精度低,停用词去除影响关键词提取。 闲来无事,准备整理一下园子博客,最近打算研究一下卷积神经网络 阅读全文
posted @ 2025-01-18 14:05 丰川扬子 阅读(8) 评论(0) 推荐(0)