敏捷冲刺五

敏捷冲刺五


Task1:团队TSP

团队任务 预估时间 实际时间 完成日期
搜索引擎相关内容了解 300 500 11-5
数据库表的创建 180 150 11-5
学院网站的爬取 210 460 11-10
建立数据库索引 190 230 11-12
代码测试 180 -- --
前端页面的设计 240 -- --
前后端的交互 300 -- --
搜索引擎测试 260 -- --

Task2:描述项目进展

成员 任务安排 预期任务量/小时
秦玉(组长) 与队员一起继续编写代码突破难关,补全之前的博客欠缺的地方 180
陈晓菲 与队员一起继续编写代码突破难关,补全之前的博客欠缺的地方 180
韩烨 前端模板的设计,补全之前的博客欠缺的地方 180
姚雯婷 分析学院页面结构,并且编写爬虫代码,能爬取页面后开始写分词器 180
罗佳 完成团队TSP表格,完成第五次冲刺博客园,配置完环境跟上进度 180
高天 完成需要在课堂上展示的ppt,继续编写代码突破难关 180

Task3:目前面临的困难

  • 最开始爬取到的页面只有十几条,肯定不对啊,然后仔细检查代码,查看学院网页的头,发现其实学院网页的头不是每个都是/info开头的,有些是content,所以我们删去了/info
            if url.startswith("http://cec.jmu.edu.cn/info"):
              yield Request(url,callback=self.parse_content)
  • 仔细比对学院网站源码后发现,只能爬取红色标题网页的原因是学院网站网页格式不统一,在解析网页时需要在多加一些或判断。我们打开学校网站的链接,一个一个的看标题,发现红字的是加了span标签的内容,取掉span之后就能爬取黑色标题的内容,但是红色标题的网页名会是空
       #item_loader.add_xpath("title", "//td[@class='titlestyle124904']/span/text()")
  • 当我们同时用这两句抓取的时候就可以同时抓到红黑两种,但是我们觉得抓取还是一次就好,不然强行增加运行时间,所以我们查了下xpath的语法,发现用 | 就可以同时爬取红黑标题的内容了,最后发现其实我们学院只有43条页面,其他的都连接到教务处或者科研中心,网页的格式就不一样了。
  • 利用elassticsearch搭建搜索引擎,目前还在编写中。IKanalyzer、ansj_seg、jcseg三种中文分词器,了解了各种分词器的功能,最终我们选择了标准分词器 IKanalyzer,发现如果直接使用elassticsearch在处理中文内容的搜索时遇到很尴尬的问题——中文词语被分成了一个一个的汉字,发现原来这是因为使用了Elasticsearch中默认的标准分词器,这个分词器在处理中文的时候会把中文单词切分成一个一个的汉字,因此引入es之中文的分词器插件es-ik就能解决这个问题。

Task4:项目燃尽图


Task5:提交历史截图


Task6:站立式会议照片

posted @ 2018-11-17 18:12  酒怂  阅读(191)  评论(0编辑  收藏  举报