会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
MurphyCheng
博客园
首页
新随笔
联系
订阅
管理
2021年12月24日
构建数据集管理系统
摘要: 一、方法 1. 研究HuggingFace Dataset做了些什么 2. 将HuggingFace Dataset用起来 3. 搭建自己的框架 4. 研究HuggingFace Dataset做到了什么程度 5. 按需改造或者扩展HuggingFace Dataset 二、HuggingFace
阅读全文
posted @ 2021-12-24 13:53 MurphyCheng
阅读(192)
评论(0)
推荐(0)
2021年12月9日
逆文档频率IDF
摘要: 1. 没有IDF之前存在的问题 比如TF统计量,停用词“的”在一篇文档中TF值很高,但“的”能代表这篇文档的重点吗?显然不能。因为“的”在很多文档中TF值都很高,具有普遍性,而不能代表某一篇文档的特征。 2. 那么普遍性怎么衡量呢? 看一个term在多少篇文档中出现过。从而有了IDF。 IDF =
阅读全文
posted @ 2021-12-09 13:31 MurphyCheng
阅读(321)
评论(0)
推荐(0)
2021年11月29日
IS-搜索中的新词应用
摘要: 一、前言 将新词应用于搜索中,首先要明确应用的目的,其次要分析目的是否可达成,最后来思考具体的解决方案。 二、应用目的 新词应用于搜索的目的,无疑是提升搜索的准确率、召回率,同时保证搜索的响应速度。 三、可行性 3.1 新词对搜索准确率的影响 搜索准确率 = 检索到的相关文档 / 所有被检索到的文档
阅读全文
posted @ 2021-11-29 15:35 MurphyCheng
阅读(141)
评论(0)
推荐(0)
公告