Fork me on GitHub

01 2017 档案

摘要:点击我前往Github查看源代码 别忘记star 本项目github地址:https://github.com/wangqifan/ZhiHu Gtihub相关项目推荐:知乎爬虫自建代理池 一.对请求IP等进行限制的。 以知乎为例,当我们的请求速度到达一定的阈值,会触发反爬虫机制! 在我爬取知乎百万 阅读全文
posted @ 2017-01-20 17:57 王起帆 阅读(12122) 评论(7) 推荐(5)
摘要:点击我前往Github查看源代码 别忘记star 本项目github地址:https://github.com/wangqifan/ZhiHu 第一个大错误是没能及时释放非托管资源,导致程序运行长的之后抛出OutOfMemoryException. 这个小Demo主要的非托管资源一个是http请求的 阅读全文
posted @ 2017-01-08 12:13 王起帆 阅读(4643) 评论(4) 推荐(5)
摘要:点击我前往Github查看源代码 别忘记star 本项目github地址:https://github.com/wangqifan/ZhiHu UserManage是获取用户信息的爬虫模块 构造函数 用户主页的uRL格式为"https://www.zhihu.com/people/"+url_tok 阅读全文
posted @ 2017-01-08 11:51 王起帆 阅读(3689) 评论(1) 推荐(4)
摘要:点击我前往Github查看源代码 别忘记star 本项目github地址:https://github.com/wangqifan/ZhiHu Redis安装 Redis官方并没有推出windows版本,人家觉得linux已经够了,开发windows版本影响开发进度,还好微软有一个团队维持着Redi 阅读全文
posted @ 2017-01-08 11:30 王起帆 阅读(3563) 评论(1) 推荐(4)
摘要:点击我前往Github查看源代码 别忘记star 本项目github地址:https://github.com/wangqifan/ZhiHu 如果你觉得服务商的服务太贵,可以考虑自建一个代理池。云代理推荐阿布云:https://www.abuyun.com/ 应用场景 爬虫过于频繁的抓取网站信息会 阅读全文
posted @ 2017-01-08 11:15 王起帆 阅读(7155) 评论(6) 推荐(4)
摘要:点击我前往Github查看源代码 本项目github地址:https://github.com/wangqifan/ZhiHu 什么是Httphelper? httpelpers是一个封装好拿来获取网络上资源的工具类。因为是用http协议,故取名httphelper。 httphelper出现的背景 阅读全文
posted @ 2017-01-06 17:26 王起帆 阅读(3727) 评论(3) 推荐(5)