Python爬虫--慕课课程列表爬取--scrapy框架(安装以及搭建)
一、scrapy的安装
1、确定安装python以及pip
2、由于我是用的是pycharm开发工具编写,所以需要下载这个软件
3、scrapy安装
打开命令行界面输入 pip install scrapy即可安装。
4、验证是否安装成功

输入 scrapy若有如下内容则安装成功

二、scrapy工程的搭建
其后续步骤可参考https://blog.csdn.net/zjiang1994/article/details/52779537
其博文已经解释的十分清楚,十分适合对scrapy框架刚入门的同学学习参考。
本文说一下我在学习中遇到的问题。
1、慕课网的代码已经发生改变,其XPATH部分已经不可用,现将更新后的代码贴出如下
for box in response.xpath('//div[@class="course-card-container"]/a[@target="_blank"]'):
item['url']='http://www.imooc.com'+box.xpath('.//@href').extract()[0]
item['title']=box.xpath('.//h3/text()').extract()[0].strip()
item['image_url']='http:'+box.xpath('.//@data-original').extract()[0]
item['student']=box.xpath('.//div[@class="course-card-info"]/span[2]/text()').extract()[0].strip()
item['introduction'] = box.xpath('.//p[@class="course-card-desc"]/text()').extract()[0].strip()
#返回信息
yield item
2、如何在pycharm中运行scrapy工程
我们需要在scrapyTest工程文件夹下加入start.py

其代码为:
from scrapy import cmdline
#scrapy crawl itcast (itcast为爬虫名)
cmdline.execute("sscrapy crawl MySpider".split())
完成后需要在pycharm中进行设置


将路径改为你刚才创建的start.py即可
3、图片无法下载至指定文件夹中(未解决)
4、其中爬虫用到了xpath的知识,https://www.w3school.com.cn/xpath/xpath_syntax.asp,可以参考本链接
,简单易懂。

浙公网安备 33010602011771号