随笔分类 - 爬虫
学习练习爬虫
摘要:【新手任务】 老板:我们做海外市场的,搞定投资商很重要。你去把境外投资企业(机构)全部给我复制下来。 任务.png 总共2606页,点下一页,然后再ctrl+C,然后Ctrl+V,准备着复制到天亮吧。扫视一圈,新来的实习生都回学校做毕业论文了。 【解决方案】 知识点:Python 3 基本语法,sp
阅读全文
摘要:import wxapp = wx.App() frame = wx.Frame(None,title = "my",size = (500,400))frame.Center() frame.Destroy() wx.Exit()
阅读全文
摘要:wxPython程序中使用日期转换函数datetime.datetime.strptime报错 unknown locale: zh-CN 解决方法: import local locale.setlocale(locale.LC_ALL, 'English_United States')
阅读全文
摘要:def getCookiesFromHeaders(headers): '''从http响应中获取所有cookie''' cookies = list() for header in headers: if "Set-Cookie" in header: cookie = header[1].spl
阅读全文
摘要:def list_all_dict(dict_a): if isinstance(dict_a,dict) : #使用isinstance检测数据类型 for x in range(len(dict_a)): temp_key = list(dict_a.keys())[x] temp_value
阅读全文
摘要:{'cardData': {'area': '东西湖区', 'attributes': 'spStuffStatus:95.0;newComment:1;proPolishTime:1645636872508;bargain:1;firstPrice:4488.00;spInspect:1;pro_
阅读全文
摘要:运行时提示: requests.exceptions.InvalidHeader: Invalid return character or leading space in header: user-agent 主要原因是headers中的值开头不能是空格 正确:'user-agent': 'Moz
阅读全文
摘要:from hashlib import md5 from string import ascii_letters,digits from itertools import permutations from time import time import pymysql,sys all_letter
阅读全文
摘要:连接ADB设备: 可以通过USB或Wifi与ADB设备进行连接,进而调用Uiautomator2框架,支持同时连接单个或多个ADB设备。 USB连接:只有一个设备也可以省略参数,多个设备则需要序列号来区分 import uiautomator2 as u2 d = u2.connect("--ser
阅读全文
摘要:替换字符串中?后面所有的字符 >>> ab="asfasfasfasdf?asfasdfasfasd" >>> ac=ab.split("?",1)[0] >>> ac 'asfasfasfasdf' >>> https://mp.weixin.qq.com/s/W-lc8T9ZSh-GOYRoZo
阅读全文
摘要:pid = GetWeChatPID('WeChat.exe')app = Application(backend='uia').connect(process=pid)# 拿到微信主窗口win_main_Dialog = app.window(class_name='WeChatMainWndFo
阅读全文
摘要:import time,sys import psutil from pywinauto.application import Application from time import sleep from pywinauto import mouse from pywinauto.keyboard
阅读全文
摘要:下载地址:Downloads (mitmproxy.org) 控制面板:网络 代理 手动设置 开 127.0.0.1 8080 选择:请勿将代理服务器用于本地(intranet)地址浏览器打开http://mitm.it/ WIN10下载证书 安装时提示密码 为空,下一步,位置选择“受信任的根证书颁
阅读全文
摘要:setting.py CLOSESPIDER_TIMEOUT=25200(七小时后关闭爬虫)
阅读全文
摘要:setting.py加入 COOKIES_ENABLED = False 设置 DEFAULT_REQUEST_HEADERS = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML,
阅读全文
摘要:import re,pymysql,requests,sys,json,time import telnetlib connect = pymysql.connect(user = 'm', password = 'M', db = 'xi', host = 'r', port = 3306, ch
阅读全文
摘要:import base64 proxy_ip_port = "123.456.789.10:8888" proxy_user_pass = "awesome:dude" request = Request(url, callback=self.parse) # Set the location of
阅读全文
摘要:self.meta = { 'dont_redirect': True, # 禁止网页重定向 'handle_httpstatus_list': [301, 302] # 对哪些异常返回进行处理 } def start_requests(self): sql="select * from lpwz
阅读全文
摘要:cf = configparser.ConfigParser() ac=cf.read("my.ini")cookie = driver.get_cookies() xx=driver.get_cookie(name="zp_passport_deepknow_sessionId") xx1=dri
阅读全文