12 2021 档案

摘要:一、方法 1. 研究HuggingFace Dataset做了些什么 2. 将HuggingFace Dataset用起来 3. 搭建自己的框架 4. 研究HuggingFace Dataset做到了什么程度 5. 按需改造或者扩展HuggingFace Dataset 二、HuggingFace 阅读全文
posted @ 2021-12-24 13:53 MurphyCheng 阅读(192) 评论(0) 推荐(0)
摘要:1. 没有IDF之前存在的问题 比如TF统计量,停用词“的”在一篇文档中TF值很高,但“的”能代表这篇文档的重点吗?显然不能。因为“的”在很多文档中TF值都很高,具有普遍性,而不能代表某一篇文档的特征。 2. 那么普遍性怎么衡量呢? 看一个term在多少篇文档中出现过。从而有了IDF。 IDF = 阅读全文
posted @ 2021-12-09 13:31 MurphyCheng 阅读(321) 评论(0) 推荐(0)