blackball9  

2021年9月26日

摘要: 关于微信小程序爬虫关于token自动更新问题 之前做过很多微信小程序的爬虫任务,今天做下记录,防止很久不用后就会忘记,微信小程序分为两大类: 1、是不需要登录的(这种的话不做分析,毕竟没什么反爬) 2、需要登录的 2.1 登录一次之后token永久有效 2.2 登录一次token几分钟内到几小时内失效 2.2.1 登录后一段时间后token时候 阅读全文
posted @ 2021-09-26 14:05 blackpearl9 阅读(1443) 评论(0) 推荐(0) 编辑

2020年2月26日

摘要: from urllib import parses = 'https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&tn=baidu&wd=urlencode&oq=%25E5%258D%259A%25E5%25AE%25A2%25E5%259B%25AD&rsv_ 阅读全文
posted @ 2020-02-26 21:05 blackpearl9 阅读(273) 评论(0) 推荐(0) 编辑
 
摘要: import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0', 'cookie': '' } url = "http 阅读全文
posted @ 2020-02-26 11:26 blackpearl9 阅读(5843) 评论(0) 推荐(2) 编辑

2020年2月21日

摘要: 今天在爬取某网站数据内容适合,通过正则匹配拿到了需要的内容字符串,但是在反序列化的时候竟然报错,大概意思知道他不是json的期望值,那么我就会想是不是数据内有一些内容是由于编码的问题导致的呢?因为之前爬一些内容时候在打印一些爬到的东西这些内容是打印不出来的,因为python中的打印好像用的是gbk默 阅读全文
posted @ 2020-02-21 17:21 blackpearl9 阅读(14168) 评论(1) 推荐(0) 编辑

2019年12月14日

摘要: import jsonimport requestsheaders = { # "Host": "www.dianping.com", # "Connection": "keep-alive", # "Accept": "application/json, text/javascript, */*; 阅读全文
posted @ 2019-12-14 22:12 blackpearl9 阅读(79) 评论(0) 推荐(0) 编辑

2019年12月8日

摘要: 最近在爬某个网站,发现这个网站的反爬太厉害了,正常时候的访问有时候都会给你弹出来验证,验证你是不是蜘蛛,而且requests发的请求携带了请求头信息,cookie信息,代理ip,也能识别是爬虫,他应该是有个ssl证书的机制,即使你关闭了也能检测到,好厉害,所以我就想着双管齐下,你跳出来是验证我就se 阅读全文
posted @ 2019-12-08 16:44 blackpearl9 阅读(11441) 评论(3) 推荐(0) 编辑

2019年12月4日

摘要: 加锁虽然会降低执行效率,但是保证了数据的稳定性和安全性 由于线程中的数据共享,以及线程的并发机制,和cpu时间片轮转机制,所以导致有可能某线程未全部运行完毕,导致线程切换导致数据的混乱。 a = 0 def add_f(lock): global a for i in range(200000): 阅读全文
posted @ 2019-12-04 17:03 blackpearl9 阅读(166) 评论(0) 推荐(0) 编辑
 
摘要: https://cuiqingcai.com/7035.html 作者写的挺好,好多爬虫的内容都有 以下模块的安装 https://www.cnblogs.com/Jimc/p/9772930.html 阅读全文
posted @ 2019-12-04 16:41 blackpearl9 阅读(198) 评论(0) 推荐(0) 编辑
 
摘要: 把子进程设置成守护进程之后,守护进程会随着主进程的结束而结束,而其他的子进程会执行到自身结束 import time from multiprocessing import Process def son1(a,b): while True: print('is alive') time.sleep 阅读全文
posted @ 2019-12-04 15:10 blackpearl9 阅读(145) 评论(0) 推荐(0) 编辑
 
摘要: 使用multiprocessing.Process来开启进程 import os import time from multiprocessing import Process def eat(): print('start eating',os.getpid()) time.sleep(1) pr 阅读全文
posted @ 2019-12-04 14:45 blackpearl9 阅读(160) 评论(0) 推荐(0) 编辑