摘要: 一、方法 1. 研究HuggingFace Dataset做了些什么 2. 将HuggingFace Dataset用起来 3. 搭建自己的框架 4. 研究HuggingFace Dataset做到了什么程度 5. 按需改造或者扩展HuggingFace Dataset 二、HuggingFace 阅读全文
posted @ 2021-12-24 13:53 MurphyCheng 阅读(192) 评论(0) 推荐(0)
摘要: 1. 没有IDF之前存在的问题 比如TF统计量,停用词“的”在一篇文档中TF值很高,但“的”能代表这篇文档的重点吗?显然不能。因为“的”在很多文档中TF值都很高,具有普遍性,而不能代表某一篇文档的特征。 2. 那么普遍性怎么衡量呢? 看一个term在多少篇文档中出现过。从而有了IDF。 IDF = 阅读全文
posted @ 2021-12-09 13:31 MurphyCheng 阅读(321) 评论(0) 推荐(0)
摘要: 一、前言 将新词应用于搜索中,首先要明确应用的目的,其次要分析目的是否可达成,最后来思考具体的解决方案。 二、应用目的 新词应用于搜索的目的,无疑是提升搜索的准确率、召回率,同时保证搜索的响应速度。 三、可行性 3.1 新词对搜索准确率的影响 搜索准确率 = 检索到的相关文档 / 所有被检索到的文档 阅读全文
posted @ 2021-11-29 15:35 MurphyCheng 阅读(141) 评论(0) 推荐(0)