随笔分类 -  爬虫

学习练习爬虫
摘要:【新手任务】 老板:我们做海外市场的,搞定投资商很重要。你去把境外投资企业(机构)全部给我复制下来。 任务.png 总共2606页,点下一页,然后再ctrl+C,然后Ctrl+V,准备着复制到天亮吧。扫视一圈,新来的实习生都回学校做毕业论文了。 【解决方案】 知识点:Python 3 基本语法,sp 阅读全文
posted @ 2022-03-25 07:01 myrj 阅读(580) 评论(0) 推荐(0)
摘要:import wxapp = wx.App() frame = wx.Frame(None,title = "my",size = (500,400))frame.Center() frame.Destroy() wx.Exit() 阅读全文
posted @ 2022-03-14 16:22 myrj 阅读(110) 评论(0) 推荐(0)
摘要:wxPython程序中使用日期转换函数datetime.datetime.strptime报错 unknown locale: zh-CN 解决方法: import local locale.setlocale(locale.LC_ALL, 'English_United States') 阅读全文
posted @ 2022-03-14 14:23 myrj 阅读(274) 评论(0) 推荐(0)
摘要:def getCookiesFromHeaders(headers): '''从http响应中获取所有cookie''' cookies = list() for header in headers: if "Set-Cookie" in header: cookie = header[1].spl 阅读全文
posted @ 2022-03-01 16:34 myrj 阅读(33) 评论(0) 推荐(0)
摘要:def list_all_dict(dict_a): if isinstance(dict_a,dict) : #使用isinstance检测数据类型 for x in range(len(dict_a)): temp_key = list(dict_a.keys())[x] temp_value 阅读全文
posted @ 2022-02-25 23:05 myrj 阅读(655) 评论(0) 推荐(0)
摘要:{'cardData': {'area': '东西湖区', 'attributes': 'spStuffStatus:95.0;newComment:1;proPolishTime:1645636872508;bargain:1;firstPrice:4488.00;spInspect:1;pro_ 阅读全文
posted @ 2022-02-25 06:26 myrj 阅读(122) 评论(0) 推荐(0)
摘要:运行时提示: requests.exceptions.InvalidHeader: Invalid return character or leading space in header: user-agent 主要原因是headers中的值开头不能是空格 正确:'user-agent': 'Moz 阅读全文
posted @ 2022-02-24 09:02 myrj 阅读(880) 评论(0) 推荐(0)
摘要:from hashlib import md5 from string import ascii_letters,digits from itertools import permutations from time import time import pymysql,sys all_letter 阅读全文
posted @ 2022-02-05 08:25 myrj 阅读(150) 评论(0) 推荐(0)
摘要:连接ADB设备: 可以通过USB或Wifi与ADB设备进行连接,进而调用Uiautomator2框架,支持同时连接单个或多个ADB设备。 USB连接:只有一个设备也可以省略参数,多个设备则需要序列号来区分 import uiautomator2 as u2 d = u2.connect("--ser 阅读全文
posted @ 2022-01-29 08:16 myrj 阅读(1786) 评论(0) 推荐(0)
摘要:替换字符串中?后面所有的字符 >>> ab="asfasfasfasdf?asfasdfasfasd" >>> ac=ab.split("?",1)[0] >>> ac 'asfasfasfasdf' >>> https://mp.weixin.qq.com/s/W-lc8T9ZSh-GOYRoZo 阅读全文
posted @ 2021-12-30 20:36 myrj 阅读(618) 评论(0) 推荐(0)
摘要:pid = GetWeChatPID('WeChat.exe')app = Application(backend='uia').connect(process=pid)# 拿到微信主窗口win_main_Dialog = app.window(class_name='WeChatMainWndFo 阅读全文
posted @ 2021-12-22 14:11 myrj 阅读(236) 评论(0) 推荐(0)
摘要:import time,sys import psutil from pywinauto.application import Application from time import sleep from pywinauto import mouse from pywinauto.keyboard 阅读全文
posted @ 2021-12-19 13:48 myrj 阅读(139) 评论(0) 推荐(0)
摘要:下载地址:Downloads (mitmproxy.org) 控制面板:网络 代理 手动设置 开 127.0.0.1 8080 选择:请勿将代理服务器用于本地(intranet)地址浏览器打开http://mitm.it/ WIN10下载证书 安装时提示密码 为空,下一步,位置选择“受信任的根证书颁 阅读全文
posted @ 2021-12-19 06:38 myrj 阅读(606) 评论(0) 推荐(0)
摘要:setting.py CLOSESPIDER_TIMEOUT=25200(七小时后关闭爬虫) 阅读全文
posted @ 2021-12-14 22:00 myrj 阅读(58) 评论(0) 推荐(0)
摘要:setting.py加入 COOKIES_ENABLED = False 设置 DEFAULT_REQUEST_HEADERS = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, 阅读全文
posted @ 2021-12-12 20:37 myrj 阅读(192) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2021-11-24 05:59 myrj 阅读(62) 评论(0) 推荐(0)
摘要:import re,pymysql,requests,sys,json,time import telnetlib connect = pymysql.connect(user = 'm', password = 'M', db = 'xi', host = 'r', port = 3306, ch 阅读全文
posted @ 2021-11-23 14:45 myrj 阅读(192) 评论(0) 推荐(0)
摘要:import base64 proxy_ip_port = "123.456.789.10:8888" proxy_user_pass = "awesome:dude" request = Request(url, callback=self.parse) # Set the location of 阅读全文
posted @ 2021-11-22 08:18 myrj 阅读(98) 评论(0) 推荐(0)
摘要:self.meta = { 'dont_redirect': True, # 禁止网页重定向 'handle_httpstatus_list': [301, 302] # 对哪些异常返回进行处理 } def start_requests(self): sql="select * from lpwz 阅读全文
posted @ 2021-11-20 09:54 myrj 阅读(236) 评论(0) 推荐(0)
摘要:cf = configparser.ConfigParser() ac=cf.read("my.ini")cookie = driver.get_cookies() xx=driver.get_cookie(name="zp_passport_deepknow_sessionId") xx1=dri 阅读全文
posted @ 2021-11-11 09:21 myrj 阅读(355) 评论(0) 推荐(0)