摘要: 评价指标(一) Metrix Based on Binary Judgement 两个动机 哪一个搜索集合更好 哪一种排序方式更好 查准率和查全率/ Precision / Recall 查准率值指的是在检索出来的文档中, 真正的相关的文档在查询出来的文档中的比例 查全率值得是在所有相关的文档中,有 阅读全文
posted @ 2021-03-13 16:32 luobotou233 阅读(211) 评论(0) 推荐(0)
摘要: 典型的信息检索架构 第一步 网站爬取:内部主要存储大量的超链接,维护消息队列,与网页解析器解析出来的新超链接交互 crawl是需要进行不断更新的 和cache进行交互,cache会存储一些统计信息,比如网站有多大,更新频率等信息 第二步 网页解析,根据爬取的网页url,专区网页中的信息,将抓取到的U 阅读全文
posted @ 2021-03-13 14:11 luobotou233 阅读(21) 评论(0) 推荐(0)