摘要:
首先,在items.py中定义几个字段用来保存网页数据(网址,标题,网页源码) 如下所示: 最重要的是我们的spider,我们这里的spider继承自CrawlSpider,方便我们定义正则来提示爬虫需要抓取哪些页面。 如:爬去下一页,爬去各个文章 在spdier中,我们使用parse_item方法 阅读全文
摘要:
在ubuntu 的终端中用代码下载最新的Python 用命令删除usr/bin/目录下的默认python link文件 给系统默认python编译器建立新的连接 验证系统默认Python是否是刚才安装的 直接在命令窗口输入python即可 阅读全文