python实现有道翻译(逐行读文本)
摘要:本脚本调用有道的json实现翻译,不过缺点是大批量翻译时容易触发防爬虫规则,实际测试为:500条以上 易会触发规则 解决方法: 1.换IP(有效),本人采用的是跳板路由+VPN来解决 2.使用代理(未测试) 使用方法: 将需要逐行翻译的句子放在一行显示,存入hack.txt,运行即可 代码: imp
阅读全文
posted @
2020-01-08 17:34
GhostAatrox
阅读(561)
推荐(0)
爬虫之异常错误、面临的各种小问题以及处理方法。
摘要:此页记录从学爬虫以来的所有错误、问题以及处理方法: 反反爬虫: 1.验证码问题(学习传统验证码、滑动验证码后详细记录)#暂未解决 2.IP被封或访问频繁(用IP池)#暂未解决 3.设置多重分链 如:href = 全站+跳转site或href =/跳转site、or 爬取的TAG多变(跳转报错后 构建
阅读全文
posted @
2018-03-24 00:54
GhostAatrox
阅读(202)
推荐(0)
爬虫学习之正则表达式re实战应用
摘要:简要流程总结:1.导入库 re requests 2.伪装头 3.定义信息函数 res引入requests模块 #获取get头 引入re模块 findall ('',res.text,re.S) 遍历输出 4.定义主入口、构造多页函数 附上实战代码:
阅读全文
posted @
2018-03-19 19:36
GhostAatrox
阅读(84)
推荐(0)
爬虫学习之BeautifulSoup
摘要:流程思路:1.导入库 2.伪装头 3.接收get 4.引入BeautifulSoup 5.引用BeautifulSoup并选择解析器 6.循环遍历输出 7.编写主入口、构造多页函数。 不足: 接触到了进阶反爬虫:验证码 附上两个经典源码:
阅读全文
posted @
2018-03-19 19:30
GhostAatrox
阅读(83)
推荐(0)