随笔分类 - python 爬虫
摘要:了解Firefox profile 参考:https://support.mozilla.org/zh-CN/kb/%E7%94%A8%E6%88%B7%E9%85%8D%E7%BD%AE%E6%96%87%E4%BB%B6 用户配置文件 您对 Firefox 做的所有更改,比如您的主页、工具栏、扩
阅读全文
摘要:迅雷下载地址如下: thunder://QUFodHRwOi8vZGwwMi55dXRvdS50djo5MjAvMTExMC9bMDHniYjlgJrlpKnlsaDpvpnorrBd56ysNDLpm4YvWzAx54mI5YCa5aSp5bGg6b6Z6K6wXeesrDQy6ZuGLm1wNF
阅读全文
摘要:python在1.5版本时使用re模块来处理正则表达式,提供perl风格的正则模式。 用处: a.判断字符串是否满足某个条件 判断输入的字符串是否是邮箱/ 手机号码。是否是ip地址b.提取满足条件的字符串c.字符串替换 编译正则表达式,使用re.compile 函数compile(pattern [
阅读全文
摘要:0,文件有两种类型:文本文件和二进制文件。 1,首先用到内置的open()函数,创建一个stream对象。 open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opene
阅读全文
摘要:由于HTTP协议是无状态协议,所以服务器与客户端通过http协议通讯时,服务器不能记录客户端的信息。 为了解决这个问题,通过 Cookie 和 Session 技术来实现。 Cookie保存在客户端中 Session保存在服务器中 cookie的属性 一般cookie所具有的属性,包括: Domai
阅读全文
摘要:我们把对象(变量)从内存中变成可存储或传输的过程称为序列化,在Python中用pickle或json标准库。序列化之后,就可以把序列化后的内容写入磁盘,或者通过网络传输的别的计算机上。 pickle:支持Python里所有的数据类型(包括函数) json:支持str,int,tule,list,di
阅读全文
摘要:1,get(url) 在当前浏览器会话中访问传入的url地址 2,close() 关闭浏览器当前页面 3,quit() 退出webdriver并关闭所有窗口(推荐) 4,refresh() 刷新当前页面 注意,下面没有括号————————— 5,title 获取当前页面的标题 6,page_sour
阅读全文
摘要:一,最大化启动浏览器,并访问url from selenium import webdriver option=webdriver.ChromeOptions() option.add_argument('--start-maximized') drive=webdriver.Chrome(opti
阅读全文
摘要:过程: 1,启动浏览器:Chrome() 2,输入网址:get() 3,在输入框输入关键词 a,先查找输入框元素:find_element__id() b,输入关键词:send_keys() 4,单击“百度一下”按钮 a,提交表单:submit() b,单击鼠标:click() c,模拟键盘按下EN
阅读全文
摘要:当然也可以启动完之后再设置,如 ……
阅读全文
摘要:要模拟浏览器访问网页,网上较普遍的是用selenium+chromedriver+chrome浏览器。 一,安装selenium第三方库 在cmd命令行串口输入pip install selenium 二,安装webdriver 网上主要有三类浏览器,chrome和firefox和ie,我习惯用36
阅读全文
摘要:摘自:https://www.cnblogs.com/liangmingshen/p/9274021.html 1、字符串前加 u 例:u"我是含有中文字符组成的字符串。" 作用: 后面字符串以 Unicode 格式 进行编码,一般用在中文字符串前面,防止因为源码储存格式问题,导致再次使用时出现乱码
阅读全文
摘要:一,获取URL的内容需要用到标准库urllib包,其中的request模块。 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) u
阅读全文

浙公网安备 33010602011771号