2018 年 11月 26 日随笔档案 - yuluoxingkong

2018年11月26日

摘要： https://blog.csdn.net/dugujiancheng/article/details/51669164 解决方案一：js方法这种方法不可靠，不推荐使用 <script type="text/javascript"> if(self != top) { top.location = 阅读全文

posted @ 2018-11-26 11:35 yuluoxingkong 阅读(2808) 评论(0) 推荐(0)

java爬虫进阶 —— ip池使用，iframe嵌套，异步访问破解

摘要：写之前稍微说一下我对爬与反爬关系的理解一、什么是爬虫爬虫英文是splider，也就是蜘蛛的意思，web网络爬虫系统的功能是下载网页数据，进行所需数据的采集。主体也就是根据开始的超链接，下载解析目标页面，这时有两件事，一是把相关超链接继续往容器内添加，二是解析页面目标数据，不断循环，直到没有url 阅读全文

posted @ 2018-11-26 11:16 yuluoxingkong 阅读(1952) 评论(0) 推荐(0)

Python爬虫关于多层嵌套iframe的解决

摘要：近期由于公司资源需要，我爬取了一个视频网站，结果以为一个很容易的小爬虫，却步步是坑啊，费了一天终于都解决了（太菜了！！！）。前面导航页的爬虫就不多说了，无非就是webdriver和PhantomJS,然后设置referer和ua，就可以一层一层访问了。其实大多数的网站的防爬都会这么做。然后到了详阅读全文

posted @ 2018-11-26 11:12 yuluoxingkong 阅读(7649) 评论(0) 推荐(0)

公告