摘要: 1,首先下载合适的tesseract-ocr的版本 2,然后安装到这一步注意要勾选这一项来安装OCR识别支持的语言包,这样OCR就可以识别多国语言,然后就可以一直点击下一步完成安装。 3,安装tesserocr库,如果在pycharm里面的设置选项里直接安装出错,可以使用whl安装,点击这里下载合适 阅读全文
posted @ 2019-01-16 20:51 桃妖妖 阅读(5463) 评论(1) 推荐(1)
摘要: # 使用selenium和phantomJS浏览器获取网页内容的小演示 # 导入包 from selenium import webdriver # 使用selenium库里的webdriver方法调用PhantomJS浏览器实例一个浏览器的操作对象 # 括号里的参数为PhantomJS浏览器在电脑里的绝对路径,这里已经添加了环境变量,所以可以省略 web = webdriver.Phan... 阅读全文
posted @ 2019-01-14 22:01 桃妖妖 阅读(452) 评论(0) 推荐(0)
摘要: # 本练习是模拟登陆及验证码处理(把验证码下载到本地后手动输入) # 1 通过分析页面获得form表单的登陆接口为 action="https://www.douban.com/accounts/login" # 2 通过抓包发现登陆除了发送账户密码和验证码外,还发送了另一个值: # form_email: 账户 # form_password: 密码 # captcha-solution: ... 阅读全文
posted @ 2019-01-13 23:48 桃妖妖 阅读(659) 评论(0) 推荐(0)
摘要: import requests # 这个练习对比的是上一个登陆练习,这个是不用自己传入cookie参数,而是利用session方法登陆 # 实例化一个session session = requests.session() # 使用session发送post请求,获取对方保存在本地的cookie # 这个url是检查登陆页面的form表单里的action找到的登陆接口 post_url =... 阅读全文
posted @ 2019-01-13 21:42 桃妖妖 阅读(932) 评论(0) 推荐(0)
摘要: 1 import requests 2 3 # 这个练习演示的是通过传入cookie信息模拟登陆,这样操作的前提是需要预先在浏览器登陆账户抓包得到cookie字段信息 4 5 url = "http://www.360wa.com/" 6 headers1 = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Ap... 阅读全文
posted @ 2019-01-13 20:43 桃妖妖 阅读(358) 评论(0) 推荐(0)
摘要: # -*- coding: utf-8 -*- import scrapy from Avv.items import AvvItem class AvSpider(scrapy.Spider): name = 'av' # 爬虫名 allowed_domains = ['51porn.net/'] 阅读全文
posted @ 2019-01-06 16:38 桃妖妖 阅读(4718) 评论(0) 推荐(0)
摘要: 这个代码爬百度,淘宝,网易等网站都是正常的,唯有这个网站错误,网上查了好多,有说添加verify=False,有说"Connection": "close",都没有用,求大神帮解决一下 python3.7 阅读全文
posted @ 2019-01-06 15:34 桃妖妖 阅读(3033) 评论(0) 推荐(0)
摘要: import csv class MyProjectPipeline(object): # 保存为csv格式 def __init__(self): # 打开文件,指定方式为写,利用第3个参数把csv写数据时产生的空行消除 self.f = open("myproject.csv","a",newline="") # 设置文件第一行的字段名,注意要跟spider传过来的... 阅读全文
posted @ 2019-01-06 14:40 桃妖妖 阅读(2735) 评论(6) 推荐(0)
摘要: 输出为 阅读全文
posted @ 2019-01-05 11:46 桃妖妖 阅读(3029) 评论(0) 推荐(0)