Python爬虫与一汽项目【综述】

项目来源

这个爬虫项目是去年实验室去一汽后的第一个项目(基本交工，现在处于更新维护阶段)。内容大概是，获取到全国31个省份政府的关于汽车的招标公告，再用图形界面的方式展示爬虫内容。在完成政府招标采购网之后，提出新的关于国企的招标信息，这些爬虫都是关于这些企业的爬虫代码。

需要的安装的东西不多，语言就用python3

数据库：mysql 可以安装正常的mysql，也可以安装wampserver的php服务器（wampserver里面有轻量级的mysql服务器，很方便）

数据库安装完成后，再安装一个mysql前端的管理工具，mysql front或者navicat premium(之前用的就是这个)

******************************************************

安装完成之后，是编写说明

爬取网站中与车相关的网页列表，要往数据库存 title(标题),href(网页的链接),招标时间，content（网页中的招标内容）

编写风格可以参照附件里的爬虫文件，解析工具的话可以用Beautiful Soup，也可以用Xpath（我习惯于Xpath，因此后续的文件都是用Xpath写的）

附件里爬虫文件的流程：

1. 先根据URL （可能是get也可能是post）获取到html

2. 通过解析工具从网页列表中获得每个单独网页的标题时间网页链接

3. 判断标题是否和车相关，时间是否符合设置要求

4. 如果符合条件，根据网页链接来获取网页中的content内容

5. 这个内容其实就是把整个网页中的文字，去掉标签，加到一起变成一段str

posted @ 2019-03-26 19:20 bep_code 阅读(270) 评论(0) 收藏举报