敏捷冲刺二

Task1：团队TSP

成员	任务安排	预期任务量/小时
秦玉（组长）	配置Elasticsearch-analysis-ik插件、安装ELasticSearch,配置Elasticsearch-analysis-ik插件,安装Redis 、完成第二次冲刺博客园	200
陈晓菲	配置Elasticsearch-analysis-ik插件、安装ELasticSearch,配置Elasticsearch-analysis-ik插件,安装Redis， Django、完成第二次冲刺博客园	200
韩烨	了解服务器的部署	140
姚雯婷	配置Elasticsearch-analysis-ik插件、安装ELasticSearch,配置Elasticsearch-analysis-ik插件,安装Redis	200
罗佳	学习爬虫原理，并实践、初步编写代码	160
高天	学习爬虫原理，并实践、初步编写代码	160

本次整个团队重点在配置搜索引擎的运行环境，我们使用的环境如下：

在配置环境的过程中，因为在冲刺一时确定了整个框架，但是没有沟通好版本细节上，导致本次会议中有大半时间用来协调统一组内已安装的软件的版本。除此之外在配置环境上也是比较耗时间的，一旦出现报错，需要很久才可以完成。

1.配置完项目所需环境

2.爬虫初步实现
参考网上的资料，最后决定用Scrapy 框架：

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。
框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。
Scrapy 使用了 Twisted异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

制作 Scrapy 爬虫一共需要4步：

Scrapy框架抓取的基本流程大概是这样:

3.数据库的建立

PS:这是我们参考了一些大型网站的爬取信息中的数据库字段的建立设计的，但是后面发现我们学校的架构跟其他网站还是差很多的，大型网站一般靠使用css选择器进行内容的获取，但是我们学校的官网几乎是纯用表格进行布局的，所以后面可能还是会根据实际情况进行二次调整

posted @ 2018-11-14 00:06 酒怂阅读(200) 评论(0) 收藏举报

刷新页面返回顶部