随笔分类 -  Spider

个人笔记,复习用
摘要:三.代理 案例 import requests import re headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123. 阅读全文
posted @ 2024-04-01 21:51 cker 阅读(50) 评论(0) 推荐(0)
摘要:浏览器问题 Elements: 里面的东西是你的 页面源代码 -> script -> 浏览器的二次渲染(table,或其他标签) -> elements里面的代码 Console: 控制台. 这里面可以写js代码. Sources: 放着页面源代码和网页的所有资源, 后期会作为我们调试js的最好用 阅读全文
posted @ 2024-04-01 21:50 cker 阅读(41) 评论(0) 推荐(0)
摘要:Spider常用知识 二.数据解析 1.正则 贪婪匹配和惰性匹配 .* 贪婪匹配, 尽可能多的去匹配结果 .*? 惰性匹配, 尽可能少的去匹配结果 -> 回溯 这两个要着重的说一下. 因为我们写爬虫用的最多的就是这个惰性匹配. re模块中我们只需要记住这么几个功能就足够我们使用了. findall 阅读全文
posted @ 2024-03-31 21:49 cker 阅读(51) 评论(0) 推荐(0)
摘要:Spider常用知识 一.py常用语法 1.基础知识 1.1.if条件判断 情况一, 数据里有一些我们并不需要的内容 if data里有你不需要的数据: 再见 else: 保留 情况二, 页面结构不统一, 会有两种页面结构 # 伪代码, 理解含义(思路) 提取器1 = xxxx # 用来提取页面中内 阅读全文
posted @ 2024-03-29 21:24 cker 阅读(287) 评论(0) 推荐(0)