会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
毕力格次
博客园
首页
新随笔
联系
管理
订阅
09 2014 档案
java抓取动态生成的网页--吐槽
摘要:最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到...
阅读全文
posted @
2014-09-22 00:14
毕力格次
阅读(6909)
评论(7)
推荐(0)
公告