摘要:
模拟登录: - 爬取基于某些用户的用户信息。需求:对人人网进行模拟登录。 - 点击登录按钮之后会发起一个post请求 - post请求中会携带登录之前录入的相关的登录信息(用户名,密码,验证码......) - 验证码:每次请求都会变化 #编码流程: #1.验证码的识别,获取验证码图片的文字数据 # 阅读全文
posted @ 2022-05-17 16:00
贰号猿
阅读(73)
评论(0)
推荐(0)
摘要:
验证码识别 验证码和爬虫之间的爱恨情仇?反爬机制:验证码.识别验证码图片中的数据,用于模拟登陆操作。 识别验证码的操作: - 人工肉眼识别。(不推荐) - 第三方自动识别(推荐) - 云打码:http://www.yundama.com/demo.html云打码的使用流程: - 注册:普通和开发者用 阅读全文
posted @ 2022-05-17 15:59
贰号猿
阅读(59)
评论(0)
推荐(0)
摘要:
聚焦爬虫:爬取页面中指定的页面内容。 - 编码流程: - 指定url - 发起请求 - 获取响应数据 - 数据解析 - 持久化存储 数据解析分类: - 正则 - bs4 - xpath(***重点) 数据解析原理概述: - 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 - 1.进行 阅读全文
posted @ 2022-05-17 15:56
贰号猿
阅读(73)
评论(0)
推荐(0)
摘要:
requests模块 - urllib模块(比较旧) - requests模块 requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。作用:模拟浏览器发请求。 如何使用:(requests模块的编码流程) - 指定url - UA伪装 - 请求参数的处理 阅读全文
posted @ 2022-05-17 15:55
贰号猿
阅读(55)
评论(0)
推荐(0)
摘要:
爬虫基础 阅读全文
posted @ 2022-05-17 15:54
贰号猿
阅读(16)
评论(0)
推荐(0)

浙公网安备 33010602011771号