20240118打卡——信息领域热词分析03
数据清洗与预处理
做了什么:去除 HTML 标签、去重、分词(使用 Jieba 或 THULAC)。
学到什么:掌握文本数据清洗方法,理解分词算法的原理。
遇到的问题:分词精度低,停用词去除影响关键词提取。
闲来无事,准备整理一下园子博客,最近打算研究一下卷积神经网络
数据清洗与预处理
做了什么:去除 HTML 标签、去重、分词(使用 Jieba 或 THULAC)。
学到什么:掌握文本数据清洗方法,理解分词算法的原理。
遇到的问题:分词精度低,停用词去除影响关键词提取。
闲来无事,准备整理一下园子博客,最近打算研究一下卷积神经网络
