随笔分类 - Spider
个人笔记,复习用
摘要:三.代理 案例 import requests import re headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.
阅读全文
摘要:浏览器问题 Elements: 里面的东西是你的 页面源代码 -> script -> 浏览器的二次渲染(table,或其他标签) -> elements里面的代码 Console: 控制台. 这里面可以写js代码. Sources: 放着页面源代码和网页的所有资源, 后期会作为我们调试js的最好用
阅读全文
摘要:Spider常用知识 二.数据解析 1.正则 贪婪匹配和惰性匹配 .* 贪婪匹配, 尽可能多的去匹配结果 .*? 惰性匹配, 尽可能少的去匹配结果 -> 回溯 这两个要着重的说一下. 因为我们写爬虫用的最多的就是这个惰性匹配. re模块中我们只需要记住这么几个功能就足够我们使用了. findall
阅读全文
摘要:Spider常用知识 一.py常用语法 1.基础知识 1.1.if条件判断 情况一, 数据里有一些我们并不需要的内容 if data里有你不需要的数据: 再见 else: 保留 情况二, 页面结构不统一, 会有两种页面结构 # 伪代码, 理解含义(思路) 提取器1 = xxxx # 用来提取页面中内
阅读全文

浙公网安备 33010602011771号