随笔分类 -  爬虫教学/学习

摘要:第 6章 Python 应对反爬虫策略 爬取一个网站的基本步骤 (1)分析请求:URL 规则、请求头规则、请求参数规则。 (2)模拟请求:通过 Requests 库或 urllib 库来模拟请求。 (3)解析数据:获取请求返回的结果,利用 lxml、Beautiful Soup 或正则表达式提取需 阅读全文
posted @ 2024-02-09 22:35 PaleKernel 阅读(268) 评论(0) 推荐(0)
摘要:第 3章 Python 爬虫抓包与数据解析 3.1 抓包进阶 目前,我们已经会使用 Chrome 浏览器自带的开发者工具来抓取访问网页的数据包,但是这种抓包方法有局限性,比如只能监听一个浏览器选项卡,如果想监听多个选项卡,必须打开多个页面。 另外,随着智能手机的普及,企业也不像以前一样必须开发一个 阅读全文
posted @ 2024-02-06 22:22 PaleKernel 阅读(788) 评论(0) 推荐(0)