scrapy爬虫框架

1，pip/pip3 install scrapy

　　命令框输入scrapy

　　　　报错的话/不是内部命令，先pip unstall scrapy卸载，然后再安装，找到报错信息warning,那边有一个·地址，添加到环境变量path中。再运行scrapy，如果还不是内部命令的话，跟着刚刚保存的路径，找到/scripts，复制这个的路径，去path中粘贴。重新输入scrapy。

2.scrapy startproject <项目名称>

　　　　　　会给你一个地址，通过pycharm打开这个文件。

　　　　　　　　　　　　文件的作用：item.py 自己预计要爬取的内容

　　　　　　　　　　　　　　　　　　middlewares.py 自定义中间件的文件

　　　　　　　　　　　　　　　　　　pipelines.py 管道保存数据

　　　　　　　　　　　　　　　　　　settings.py　　设置文件，ua，启动管理

　　　　　　　　　　　　　　　　　　spiders 自己定义的spiders文件夹

　　　　　　　　　　　　　　　　　　scrapy.cfg 项目的配置文件

3.创建爬虫

　　在项目路径下输入 scrapy genspider <爬虫名字> <允许爬虫的域名>

三个参数：name，allow_domains，start——urls

一个方法：parse 解析方法

完成爬虫：

修改起始的url

检查允许修改的域名

在parse方法中实现修改逻辑

# 获取所有教师节点，遍历所有教师节点
node_list = response.xpath('//div[@class="li_txt"]')
# print(len(node_list))
# xpath方法之后返回的是选择器对象
for node in node_list:
    temp = {}
    temp['name'] = node.xpath('./h3/text()').extract_first()
    temp['title'] = node.xpath('./h4/text()')[0].extract()
    temp['desc'] = node.xpath('./p/text()')[0].extract()
    print(temp)
如果xpath只有一个节点，就使用extract——first（），否则extract（）

posted @ 2022-10-29 23:38 迪迦9723 阅读(36) 评论(0) 收藏举报

刷新页面返回顶部

scrapy爬虫框架

公告