会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
thxuaimin
导航
博客园
首页
新随笔
联系
订阅
管理
公告
随笔分类 -
网络爬虫
首次实现大批量的数据抓取
摘要:通过使用第三方的数据抓取套件,成功的实现对某一个网站数据的抓取。 定义:任务也称为是“主题”,或者是“线索”; 关键点:对网页结构的解析。 在xml的技术上面做文章。 操作:实现任务的编辑,线索的编辑,上传,保存至服务器。 加载。 需要注意的是:使用FF作为母体,插件与母体的版本号对应,否则可能不兼容。 在获取软件的时,注意一个是服务的账号,一个是社区的账号。 这个网站的验证码是大小写敏感的。...
阅读全文
posted @
2012-12-01 23:49
thxuaimin
阅读(214)
评论(0)
推荐(0)