敏捷冲刺五

Task1：团队TSP

成员	任务安排	预期任务量/小时
秦玉（组长）	与队员一起继续编写代码突破难关，补全之前的博客欠缺的地方	180
陈晓菲	与队员一起继续编写代码突破难关，补全之前的博客欠缺的地方	180
韩烨	前端模板的设计，补全之前的博客欠缺的地方	180
姚雯婷	分析学院页面结构，并且编写爬虫代码，能爬取页面后开始写分词器	180
罗佳	完成团队TSP表格，完成第五次冲刺博客园，配置完环境跟上进度	180
高天	完成需要在课堂上展示的ppt，继续编写代码突破难关	180

最开始爬取到的页面只有十几条，肯定不对啊，然后仔细检查代码，查看学院网页的头，发现其实学院网页的头不是每个都是/info开头的，有些是content，所以我们删去了/info

            if url.startswith("http://cec.jmu.edu.cn/info"):
              yield Request(url,callback=self.parse_content)

仔细比对学院网站源码后发现，只能爬取红色标题网页的原因是学院网站网页格式不统一，在解析网页时需要在多加一些或判断。我们打开学校网站的链接，一个一个的看标题，发现红字的是加了span标签的内容，取掉span之后就能爬取黑色标题的内容，但是红色标题的网页名会是空

       #item_loader.add_xpath("title", "//td[@class='titlestyle124904']/span/text()")

当我们同时用这两句抓取的时候就可以同时抓到红黑两种，但是我们觉得抓取还是一次就好，不然强行增加运行时间，所以我们查了下xpath的语法，发现用 | 就可以同时爬取红黑标题的内容了，最后发现其实我们学院只有43条页面，其他的都连接到教务处或者科研中心，网页的格式就不一样了。
利用elassticsearch搭建搜索引擎，目前还在编写中。IKanalyzer、ansj_seg、jcseg三种中文分词器，了解了各种分词器的功能，最终我们选择了标准分词器 IKanalyzer，发现如果直接使用elassticsearch在处理中文内容的搜索时遇到很尴尬的问题——中文词语被分成了一个一个的汉字，发现原来这是因为使用了Elasticsearch中默认的标准分词器，这个分词器在处理中文的时候会把中文单词切分成一个一个的汉字，因此引入es之中文的分词器插件es-ik就能解决这个问题。

posted @ 2018-11-17 18:12 酒怂阅读(194) 评论(0) 收藏举报

刷新页面返回顶部