会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
博客园
首页
新随笔
联系
订阅
管理
2025年1月18日
20240118打卡——信息领域热词分析03
摘要: 数据清洗与预处理 做了什么:去除 HTML 标签、去重、分词(使用 Jieba 或 THULAC)。 学到什么:掌握文本数据清洗方法,理解分词算法的原理。 遇到的问题:分词精度低,停用词去除影响关键词提取。 闲来无事,准备整理一下园子博客,最近打算研究一下卷积神经网络
阅读全文
posted @ 2025-01-18 14:05 丰川扬子
阅读(8)
评论(0)
推荐(0)
公告