会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
桃妖妖
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
2019年1月16日
安装tesserocr的步骤和报错RuntimeError: Failed to init API, possibly an invalid tessdata path解决办法
摘要: 1,首先下载合适的tesseract-ocr的版本 2,然后安装到这一步注意要勾选这一项来安装OCR识别支持的语言包,这样OCR就可以识别多国语言,然后就可以一直点击下一步完成安装。 3,安装tesserocr库,如果在pycharm里面的设置选项里直接安装出错,可以使用whl安装,点击这里下载合适
阅读全文
posted @ 2019-01-16 20:51 桃妖妖
阅读(5463)
评论(1)
推荐(1)
2019年1月14日
使用selenium和phantomJS浏览器获取网页内容的小演示
摘要: # 使用selenium和phantomJS浏览器获取网页内容的小演示 # 导入包 from selenium import webdriver # 使用selenium库里的webdriver方法调用PhantomJS浏览器实例一个浏览器的操作对象 # 括号里的参数为PhantomJS浏览器在电脑里的绝对路径,这里已经添加了环境变量,所以可以省略 web = webdriver.Phan...
阅读全文
posted @ 2019-01-14 22:01 桃妖妖
阅读(452)
评论(0)
推荐(0)
2019年1月13日
用session模拟登陆,手动输入验证码
摘要: # 本练习是模拟登陆及验证码处理(把验证码下载到本地后手动输入) # 1 通过分析页面获得form表单的登陆接口为 action="https://www.douban.com/accounts/login" # 2 通过抓包发现登陆除了发送账户密码和验证码外,还发送了另一个值: # form_email: 账户 # form_password: 密码 # captcha-solution: ...
阅读全文
posted @ 2019-01-13 23:48 桃妖妖
阅读(659)
评论(0)
推荐(0)
通过session模拟登陆
摘要: import requests # 这个练习对比的是上一个登陆练习,这个是不用自己传入cookie参数,而是利用session方法登陆 # 实例化一个session session = requests.session() # 使用session发送post请求,获取对方保存在本地的cookie # 这个url是检查登陆页面的form表单里的action找到的登陆接口 post_url =...
阅读全文
posted @ 2019-01-13 21:42 桃妖妖
阅读(932)
评论(0)
推荐(0)
通过cookies信息模拟登陆
摘要: 1 import requests 2 3 # 这个练习演示的是通过传入cookie信息模拟登陆,这样操作的前提是需要预先在浏览器登陆账户抓包得到cookie字段信息 4 5 url = "http://www.360wa.com/" 6 headers1 = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Ap...
阅读全文
posted @ 2019-01-13 20:43 桃妖妖
阅读(358)
评论(0)
推荐(0)
2019年1月6日
Scrapy爬取多层级网页内容的方式
摘要: # -*- coding: utf-8 -*- import scrapy from Avv.items import AvvItem class AvSpider(scrapy.Spider): name = 'av' # 爬虫名 allowed_domains = ['51porn.net/']
阅读全文
posted @ 2019-01-06 16:38 桃妖妖
阅读(4718)
评论(0)
推荐(0)
requests.exceptions.SSLError……Max retries exceeded with url错误求助!!!
摘要: 这个代码爬百度,淘宝,网易等网站都是正常的,唯有这个网站错误,网上查了好多,有说添加verify=False,有说"Connection": "close",都没有用,求大神帮解决一下 python3.7
阅读全文
posted @ 2019-01-06 15:34 桃妖妖
阅读(3033)
评论(0)
推荐(0)
Scrapy用pipelines把字典保存为csv格式
摘要: import csv class MyProjectPipeline(object): # 保存为csv格式 def __init__(self): # 打开文件,指定方式为写,利用第3个参数把csv写数据时产生的空行消除 self.f = open("myproject.csv","a",newline="") # 设置文件第一行的字段名,注意要跟spider传过来的...
阅读全文
posted @ 2019-01-06 14:40 桃妖妖
阅读(2735)
评论(6)
推荐(0)
2019年1月5日
Python 列表元素分组,比如 [1,2,3,...20]变成 [[1,2,3],[4,5,6]....](列表生成式解决)
摘要: 输出为
阅读全文
posted @ 2019-01-05 11:46 桃妖妖
阅读(3029)
评论(0)
推荐(0)
上一页
1
2
公告