摘要: #encoding=utf-8 #文件比较小 count=len(open(r"data.txt",'r').readlines()) print(count) #文件比较大 count=-1 for count, line in enumerate(... 阅读全文
posted @ 2018-04-18 11:30 m*x*h 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 一共分为两端段代码: 第一段:获取cookie第二段:通过cookie登陆这里以百度云为例:第一部分:保存cookies,直接在cmd中执行就好>>> from selenium import webdriver>>> from selenium.webdriver.... 阅读全文
posted @ 2018-04-13 10:53 m*x*h 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 正则表达式re.S的用法在Python的正则表达式中,有一个参数为re.S。它表示“.”(不包含外侧双引号,下同)的作用扩展到整个字符串,包括“\n”。看如下代码:import rea = '''asdfsafhellopass: 234455 world... 阅读全文
posted @ 2018-02-23 19:19 m*x*h 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 在用tesseract进行验证码识别之前,我们首先需要对验证码图片进行预处理,尽量去除噪声,而只保留有验证码信息的像素验证码噪声分析通常验证码噪声主要有以下:变色:对验证码字符像素进行变色,但一般而言为了可以辨认都是和图像底色有一定差别的。这就可以通过二值图像,把验证... 阅读全文
posted @ 2018-02-23 17:11 m*x*h 阅读(514) 评论(0) 推荐(0) 编辑
摘要: 代理(proxies参数)如果需要使用代理,你可以通过为任意请求方法提供 proxies 参数来配置单个请求:import requests# 根据协议类型,选择不同的代理proxies = { "http": "http://12.34.56.79:9527", ... 阅读全文
posted @ 2018-02-23 17:10 m*x*h 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 只是想说明一个问题,Cookie可以维持登录状态,有些网页当中,访问之后的cookie里面带有登陆账号,和登陆密码,这样可以使用cookie直接访问网页,如知乎,首先登录知乎,将Headers中的Cookie内容复制下来这个需要替换成你自己的Cookie,将其设置到H... 阅读全文
posted @ 2018-02-23 17:08 m*x*h 阅读(748) 评论(0) 推荐(0) 编辑
摘要: 第一步: 官方安装包下载地址:download 因为只包含英文语言包,如果需要其他语言包下载地址:download the appropriate training data 并将语言包解压至tessdata目录。最常用的简体字识别包:https:/... 阅读全文
posted @ 2018-02-23 17:01 m*x*h 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 可定需要查看淘宝界面的结构,按F12查看网页,此时先清除一下网页中的数据,让Network制空,随后在输入框中输入新的内容,比如钱包,数据中会出现新的数据。点击及查看蓝色方框中的内容点击之后,你可以查看要访问的地址,及响应的结果从第二步访问到的路由地址,会是我们调用的... 阅读全文
posted @ 2018-02-03 14:38 m*x*h 阅读(1799) 评论(0) 推荐(1) 编辑
摘要: Python中一般使用xlrd(excel read)来读取Excel文件,使用xlwt(excel write)来生成Excel文件(可以控制Excel中单元格的格式),需要注意的是,用xlrd读取excel是不能对其进行操作的,详细的介绍,基本上都在代码中写明直接... 阅读全文
posted @ 2018-01-25 16:16 m*x*h 阅读(8294) 评论(0) 推荐(0) 编辑
摘要: 通过xlwt这个库,可以将数据写入Excel中,而且通过xlwt写excel格式可以控制 颜色、模式、编码、背景色下面基本上是一个练习,熟悉如何操作xlwt库的下面是代码,所有的内容,和介绍,基本上都卸载了上面,一步一步来,基本上都可以熟悉。#coding=utf8i... 阅读全文
posted @ 2018-01-25 16:07 m*x*h 阅读(304) 评论(0) 推荐(0) 编辑