文章分类 -  爬虫

摘要:from lxml import etree# 在函数外面打开一个文件f = open('data.csv', mode='w', encoding='utf-8')tree = etree.HTML(resp.text)# 查看页面源代码,找到唯一的tr_list = tree.xpath("// 阅读全文
posted @ 2023-07-09 18:39 严永富 阅读(8) 评论(0) 推荐(0)
摘要:href_list = tree.xpath("//ul[@class='clearfix']/li/a[1]/@href") 阅读全文
posted @ 2023-07-09 18:39 严永富 阅读(13) 评论(0) 推荐(0)
摘要:# 原 URL ,只能爬取一页的数据url = "http://www.xinfadi.com.cn/marketanalysis/0/list/1.shtml"# 单线程,爬取全部数据for i in range(1, 100): url = f"http://www.xinfadi.com.cn 阅读全文
posted @ 2023-07-09 18:38 严永富 阅读(7) 评论(0) 推荐(0)
摘要:from urllib import parse # parse 转化 def get_img_src(): url = "http://www.591mm.com/mntt/6.html" # xpath 解析得到的href ['/mntt/dlmn/307677.html','/mntt/dlm 阅读全文
posted @ 2023-07-09 18:38 严永富 阅读(47) 评论(0) 推荐(0)
摘要:import asyncioasync def func(): # async 异步 print("我是自由的函数")if __name__ == '__main__': # 程序的入口 # func() # 调用这个函数 f = func() asyncio.run(f) 阅读全文
posted @ 2023-07-09 18:38 严永富 阅读(4) 评论(0) 推荐(0)
摘要:检查 全部 2022 搜索 decrypt JSON.parse 都找不到 只能跟栈 xhr 接口 发起程序 预览 全部是加密数据 接口 发起程序 格式化 h.send(b.hasContent && b.data || null)请求发送的位置(请求打算发送,还没有发送) 断点 2023 请求发送 阅读全文
posted @ 2023-07-09 18:38 严永富 阅读(34) 评论(0) 推荐(0)
摘要:1. PyCharm: the Python IDE for Professional Developers by JetBrains 官网 2. 木石软件(公众号) 安装 激活教程 淘宝购买 【2022激活】 https://cowtransfer.com/s/72186279e36d48提取密码 阅读全文
posted @ 2023-07-09 18:38 严永富 阅读(174) 评论(0) 推荐(0)
摘要:头部参数逆向.js js md5 有问题 const crypto = require('crypto')// 导包function d(t) { for (var e in t) "" !== t[e] && void 0 !== t[e] || delete t[e]; var n = "363 阅读全文
posted @ 2023-07-09 18:37 严永富 阅读(101) 评论(0) 推荐(0)
摘要:https://www.cursor.so/ 阅读全文
posted @ 2023-07-09 18:37 严永富 阅读(4) 评论(0) 推荐(0)
摘要:import requests headers = { 'Accept': 'application/json, text/plain, */*', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Connection': 'keep-alive', 'Content-T 阅读全文
posted @ 2023-07-09 18:37 严永富 阅读(55) 评论(0) 推荐(0)
摘要:数据接口 鼠标右键 复制 以cURL(bash)格式复制 打开 https://curlconverter.com/ 粘贴 阅读全文
posted @ 2023-03-26 12:39 严永富 阅读(143) 评论(0) 推荐(0)
摘要:接口定位 1.静态 2.动态 3.搜索对应的关键字 4.搜索不到呢? 1.动态数据 1.Unicode编码 2.数据加密 1.混淆的js 2.没有混淆的js 1.直接搜索关键字 decrypt 2. ajax 渲染 搜索关键JSON.parse 3.跟着堆栈 进行调试到出现明文 注:webpack 阅读全文
posted @ 2023-03-26 11:22 严永富 阅读(886) 评论(0) 推荐(0)
摘要:'''排错 - 接口校验登录 签名 权限 所以不需要Cookie'''请求标头这么多我们应该填充谁,才是正确的?1.我们并不是很清楚头部信息是不是有误?2.我们请求的表单的格式是否正确?会不会是json, 会不会是一个字符串呢?3.确定是 get 还是 post ?验证接口规则: ontrol+c  阅读全文
posted @ 2023-03-26 11:21 严永富 阅读(22) 评论(0) 推荐(0)
摘要:检查 网络 搜索要爬取的内容 标头 请求标头 mcode(是base64加密的) 搜索关键字 (mcode) 或者路径(p_sysapi1007) 找到js 在来源面板打开 继续搜索p_sysapi1007 mcode: indexcode.getResCode() 这行设置断点 刷新 单步调试 把 阅读全文
posted @ 2023-03-26 11:21 严永富 阅读(99) 评论(0) 推荐(0)
摘要:t 时间戳 sign 关键字 路径 启动器 启动器 1. 网络 全部 刷新 搜索想爬取的关键字 点一下下面搜索到的 右边查找颜色深的 右边预览没有加密 载荷(请求参数加密) t 时间戳 sign data 三个变化 2. 启动器(点开js) control+f sign 找到 sign: j 在 s 阅读全文
posted @ 2023-03-26 11:21 严永富 阅读(78) 评论(0) 推荐(0)
摘要:变量名 方法名 僵尸代码 js 里面是 this = python里面的面向对象 就复制整个类,var webDES = function() { 开始 ;结束。根据类的缺失在补充 data = "8312D7E7B9223EAA0307FF5806E1E36E763524ABE56DD990FF6 阅读全文
posted @ 2023-03-19 20:04 严永富 阅读(1349) 评论(0) 推荐(0)
摘要:const CryptoJS = require('crypto-js') // python 导包 js在node.js的导包方式// 安装包 npm install crypto-js//鼠标光标定位h复制出来的//缺失的 f m 在js上下查找// f = CryptoJS.enc.Utf8. 阅读全文
posted @ 2023-03-19 20:04 严永富 阅读(390) 评论(0) 推荐(0)
摘要:function s(e) { return JSON.parse(o("5e5062e82f15fe4ca9d24bc5", decode123(e), 0, 0, "012345677890123", 1))}function o(e, t, i, n, a, o) {var s, c, r, 阅读全文
posted @ 2023-03-19 20:03 严永富 阅读(98) 评论(0) 推荐(0)
摘要:from hashlib import md5 # python 计算md5obj = md5()obj.update(result.encode())sign = obj.hexdigest()# MD5 加密 import hashlib data = '要加密的数据'md5 = hashlib 阅读全文
posted @ 2023-02-11 23:29 严永富 阅读(24) 评论(0) 推荐(0)
摘要:fn 函数 (url {} ) ()里面是参数,()前面是执行的函数方法 request 发送请求 concat 拼接,连接 return 2 == this.config.checkSign ? this.newCheckSignRequest(t, e) : this.checkSignRequ 阅读全文
posted @ 2023-02-11 23:29 严永富 阅读(15) 评论(0) 推荐(0)