文章分类 -  爬虫

摘要:淘宝网站 图片爬取 1. 分析url构造 2. 查找图片在html位置 3. 抓取图片 淘宝url规律分析 https://s.taobao.com/search?spm=a21bo.jianhua.201867-main.2.5af911d9zRurGY&q=%E5%86%85%E8%A1%A3 阅读全文
posted @ 2022-10-17 16:31 cc学习之路 阅读(685) 评论(0) 推荐(0)
摘要:Urllib实战 匹配标题 res = urllib.request.Request("http://www.tipdm.com/gsxw/index.jhtml") res2 = urllib.request.urlopen(res) content = res2.read().decode("u 阅读全文
posted @ 2022-10-12 11:09 cc学习之路 阅读(28) 评论(0) 推荐(0)
摘要:爬虫-正则表达式 通用爬虫 1. 获取初始url 2. 获得新的url 放入爬取列表内 3. 读取新url 4. 循环知道满足条件 聚焦爬虫 1. 对抓取目标进行描述 2. 获取初始url 3. 获得新url 过滤 4. 将过滤过的url放入爬取列表 5. 读取新url 6. 循环至满足 正则表达式 阅读全文
posted @ 2022-10-09 18:31 cc学习之路 阅读(39) 评论(0) 推荐(0)
摘要:Scrapy爬虫框架 Scrapy是一个为了爬取网站数据 提前结构性数据而编写的应用程序框架 可以应用在数据挖掘 信息处理 存储历史信息等一系列程序 Scrapy爬虫框架的组成 Engine 调度器(Scheduler) Downloader Spiders Item Pipelines 下载器中间 阅读全文
posted @ 2022-09-12 19:37 cc学习之路 阅读(104) 评论(0) 推荐(0)
摘要:动态网页爬取 动态网页是相对于静态网页而言的 在某些网站,使用静态下载 器与解析器对页面进行解析时,如果没有发现任何数据 多数原因是该 网站的部分元素是动态生产的 目前流行两种方法: 1. 逆向分析爬取动态网页 手动分析网络面板ajax请求来进行信息采集 2. 在Chrome浏览器使用Seleniu 阅读全文
posted @ 2022-09-07 22:57 cc学习之路 阅读(2096) 评论(0) 推荐(0)
摘要:爬虫 爬虫也叫网络蜘蛛,网络机器人.是一个自动下载网页的计算机程序或自动化脚本.网络爬虫像蜘蛛一样 在网络上爬行.它以一个称为种子集的URl集合为起点,沿着URl的丝线爬行.下载每一个URL所指向的网页, 分析网页,提前新URl,记录已经爬过的内容,循环往复,直到URL队列空或者满足条件.达到遍历U 阅读全文
posted @ 2022-09-07 13:36 cc学习之路 阅读(612) 评论(0) 推荐(0)