2022 年 5月 26 日随笔档案 - simon_T

2022年5月26日

摘要： #全站数据爬取的方式基于Spider：手动请求基于CrawlSpider #基于CrawlSpider爬取全部数据创建一个工程 cd XXX 创建爬虫文件（CrawlSpider）： scrapy genspider -t crawl xxx www.xxxx.com #链接提取器 LinkE 阅读全文

posted @ 2022-05-26 23:28 simon_T 阅读(179) 评论(0) 推荐(0)

scrapy框架爬取网易新闻内容-动态加载数据页面爬取方法处理

摘要： #需求爬取网易新闻中的新闻数据（标题和内容） 1.通过网易新闻的首页解析出五大板块对应的详情页的url（没有动态加载） 2.每一个板块对应的新闻标题都是动态加载出来的（动态加载） 3.通过解析出每一条新闻详情页的url获取详情页的页面源码，解析出新闻内容 #代码实现 ##数据解析需要获取国内、国阅读全文

posted @ 2022-05-26 21:52 simon_T 阅读(481) 评论(2) 推荐(0)

simon成长日记

有缘相见万里来，志气相投常相见！

公告