爬虫学习 - 文章分类 - GhostAatrox

python实现有道翻译(逐行读文本)

摘要：本脚本调用有道的json实现翻译，不过缺点是大批量翻译时容易触发防爬虫规则，实际测试为：500条以上易会触发规则解决方法： 1.换IP（有效），本人采用的是跳板路由+VPN来解决 2.使用代理（未测试）使用方法：将需要逐行翻译的句子放在一行显示，存入hack.txt,运行即可代码： imp 阅读全文

posted @ 2020-01-08 17:34 GhostAatrox 阅读(561) 评论(0) 推荐(0)

爬虫之异常错误、面临的各种小问题以及处理方法。

摘要：此页记录从学爬虫以来的所有错误、问题以及处理方法：反反爬虫： 1.验证码问题（学习传统验证码、滑动验证码后详细记录）#暂未解决 2.IP被封或访问频繁（用IP池）#暂未解决 3.设置多重分链如：href = 全站+跳转site或href =/跳转site、or 爬取的TAG多变（跳转报错后构建阅读全文

posted @ 2018-03-24 00:54 GhostAatrox 阅读(202) 评论(0) 推荐(0)

爬虫学习之正则表达式re实战应用

摘要：简要流程总结：1.导入库 re requests 2.伪装头 3.定义信息函数 res引入requests模块 #获取get头引入re模块 findall （''，res.text,re.S）遍历输出 4.定义主入口、构造多页函数附上实战代码: 阅读全文

posted @ 2018-03-19 19:36 GhostAatrox 阅读(84) 评论(0) 推荐(0)

爬虫学习之BeautifulSoup

摘要：流程思路：1.导入库 2.伪装头 3.接收get 4.引入BeautifulSoup 5.引用BeautifulSoup并选择解析器 6.循环遍历输出 7.编写主入口、构造多页函数。不足：接触到了进阶反爬虫：验证码附上两个经典源码: 阅读全文

posted @ 2018-03-19 19:30 GhostAatrox 阅读(83) 评论(0) 推荐(0)

文章分类 - 爬虫学习