桃妖妖

2019年1月16日

安装tesserocr的步骤和报错RuntimeError: Failed to init API, possibly an invalid tessdata path解决办法

摘要： 1，首先下载合适的tesseract-ocr的版本 2，然后安装到这一步注意要勾选这一项来安装OCR识别支持的语言包，这样OCR就可以识别多国语言，然后就可以一直点击下一步完成安装。 3，安装tesserocr库，如果在pycharm里面的设置选项里直接安装出错，可以使用whl安装，点击这里下载合适阅读全文

posted @ 2019-01-16 20:51 桃妖妖阅读(5520) 评论(1) 推荐(1)

2019年1月14日

使用selenium和phantomJS浏览器获取网页内容的小演示

摘要： # 使用selenium和phantomJS浏览器获取网页内容的小演示 # 导入包 from selenium import webdriver # 使用selenium库里的webdriver方法调用PhantomJS浏览器实例一个浏览器的操作对象 # 括号里的参数为PhantomJS浏览器在电脑里的绝对路径，这里已经添加了环境变量，所以可以省略 web = webdriver.Phan... 阅读全文

posted @ 2019-01-14 22:01 桃妖妖阅读(457) 评论(0) 推荐(0)

2019年1月13日

用session模拟登陆，手动输入验证码

摘要： # 本练习是模拟登陆及验证码处理（把验证码下载到本地后手动输入） # 1 通过分析页面获得form表单的登陆接口为 action="https://www.douban.com/accounts/login" # 2 通过抓包发现登陆除了发送账户密码和验证码外，还发送了另一个值： # form_email: 账户 # form_password: 密码 # captcha-solution: ... 阅读全文

posted @ 2019-01-13 23:48 桃妖妖阅读(673) 评论(0) 推荐(0)

通过session模拟登陆

摘要： import requests # 这个练习对比的是上一个登陆练习，这个是不用自己传入cookie参数，而是利用session方法登陆 # 实例化一个session session = requests.session() # 使用session发送post请求，获取对方保存在本地的cookie # 这个url是检查登陆页面的form表单里的action找到的登陆接口 post_url =... 阅读全文

posted @ 2019-01-13 21:42 桃妖妖阅读(938) 评论(0) 推荐(0)

通过cookies信息模拟登陆

摘要： 1 import requests 2 3 # 这个练习演示的是通过传入cookie信息模拟登陆，这样操作的前提是需要预先在浏览器登陆账户抓包得到cookie字段信息 4 5 url = "http://www.360wa.com/" 6 headers1 = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Ap... 阅读全文

posted @ 2019-01-13 20:43 桃妖妖阅读(369) 评论(0) 推荐(0)

2019年1月6日

Scrapy爬取多层级网页内容的方式

摘要： # -*- coding: utf-8 -*- import scrapy from Avv.items import AvvItem class AvSpider(scrapy.Spider): name = 'av' # 爬虫名 allowed_domains = ['51porn.net/'] 阅读全文

posted @ 2019-01-06 16:38 桃妖妖阅读(4756) 评论(0) 推荐(0)

requests.exceptions.SSLError……Max retries exceeded with url错误求助！！！

摘要：这个代码爬百度，淘宝，网易等网站都是正常的，唯有这个网站错误，网上查了好多，有说添加verify=False，有说"Connection": "close"，都没有用，求大神帮解决一下 python3.7 阅读全文

posted @ 2019-01-06 15:34 桃妖妖阅读(3043) 评论(0) 推荐(0)

Scrapy用pipelines把字典保存为csv格式

摘要： import csv class MyProjectPipeline(object): # 保存为csv格式 def __init__(self): # 打开文件，指定方式为写，利用第3个参数把csv写数据时产生的空行消除 self.f = open("myproject.csv","a",newline="") # 设置文件第一行的字段名，注意要跟spider传过来的... 阅读全文

posted @ 2019-01-06 14:40 桃妖妖阅读(2755) 评论(6) 推荐(0)

2019年1月5日

Python 列表元素分组,比如 [1,2,3,...20]变成 [[1,2,3],[4,5,6]....]（列表生成式解决）

摘要：输出为阅读全文

posted @ 2019-01-05 11:46 桃妖妖阅读(3054) 评论(0) 推荐(0)

公告