King_K

导航

2014年10月27日 #

第九章:图论和网络爬虫

摘要: 上面我们谈了在搜索引擎中,如何建立索引,这里,我们讲如何自动下载互联网上所有的网页,重点就是图论中的遍历算法。 1.图论和网络爬虫 遍历算法主要有两种,一种是深度优先遍历,一种是广度优先遍历。所谓深度优先遍历,就是从一个节点开始,一直沿着一条路走到底,直到没路了,再回过头去找别的路,再一路走... 阅读全文

posted @ 2014-10-27 21:52 King_K 阅读(423) 评论(0) 推荐(0) 编辑

自动文档摘要技术简介

摘要: 自动摘要生成技术,尤其是多文档摘要的研究目前来说一直深受关注。从定义上来说,多文档摘要就是将同一主题下的多个文本描述的主要信息按压缩比提炼出一个文本的自然语言处理技术。从应用上来说,一方面,在互联网上使用搜索引擎时候,搜索同一主题的文档往往会返回成千上万的网页,如果将这些网页形成一个统一的、精炼... 阅读全文

posted @ 2014-10-27 21:48 King_K 阅读(924) 评论(0) 推荐(0) 编辑