Spider - 随笔分类 - cker

第三方代理

摘要：三.代理案例 import requests import re headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123. 阅读全文

posted @ 2024-04-01 21:51 cker 阅读(50) 评论(0) 推荐(0)

爬虫基础总结

摘要：浏览器问题 Elements: 里面的东西是你的页面源代码 -> script -> 浏览器的二次渲染(table,或其他标签) -> elements里面的代码 Console: 控制台. 这里面可以写js代码. Sources: 放着页面源代码和网页的所有资源, 后期会作为我们调试js的最好用阅读全文

posted @ 2024-04-01 21:50 cker 阅读(41) 评论(0) 推荐(0)

数据解析

摘要：Spider常用知识二.数据解析 1.正则贪婪匹配和惰性匹配 .* 贪婪匹配, 尽可能多的去匹配结果 .*? 惰性匹配, 尽可能少的去匹配结果 -> 回溯这两个要着重的说一下. 因为我们写爬虫用的最多的就是这个惰性匹配. re模块中我们只需要记住这么几个功能就足够我们使用了. findall 阅读全文

posted @ 2024-03-31 21:49 cker 阅读(51) 评论(0) 推荐(0)

py常用语法

摘要：Spider常用知识一.py常用语法 1.基础知识 1.1.if条件判断情况一, 数据里有一些我们并不需要的内容 if data里有你不需要的数据: 再见 else: 保留情况二, 页面结构不统一, 会有两种页面结构 # 伪代码, 理解含义(思路) 提取器1 = xxxx # 用来提取页面中内阅读全文

posted @ 2024-03-29 21:24 cker 阅读(287) 评论(0) 推荐(0)

ckeri

随笔分类 - Spider

公告