摘要: 首先,在items.py中定义几个字段用来保存网页数据(网址,标题,网页源码) 如下所示: 最重要的是我们的spider,我们这里的spider继承自CrawlSpider,方便我们定义正则来提示爬虫需要抓取哪些页面。 如:爬去下一页,爬去各个文章 在spdier中,我们使用parse_item方法 阅读全文
posted @ 2017-04-02 21:55 曾是土木人 阅读(2173) 评论(0) 推荐(0) 编辑
摘要: 在ubuntu 的终端中用代码下载最新的Python 用命令删除usr/bin/目录下的默认python link文件 给系统默认python编译器建立新的连接 验证系统默认Python是否是刚才安装的 直接在命令窗口输入python即可 阅读全文
posted @ 2017-04-02 14:46 曾是土木人 阅读(10788) 评论(1) 推荐(2) 编辑