会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
wzb的QQ空间
博客园
首页
新随笔
联系
订阅
管理
2015年12月8日
使用JAVA爬取博客里面的所有文章
摘要: 主要思路:1、找到列表页。2、找到文章页。3、用一个队列来保存将要爬取的网页,爬取队头的url,如果队列非空,则一直爬取。4、如果是列表页,则抽取里面所有的文章url进队;如果是文章页,则直接爬取至本地。一个博客是起始页url是这样的:http://www.cnblogs.com/joyeecheu...
阅读全文
posted @ 2015-12-08 17:07 wzb的QQ空间
阅读(2517)
评论(2)
推荐(1)
公告