会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
w_poison
博客园
首页
新随笔
联系
管理
订阅
2019年10月17日
基于密度的网页列表抽取
摘要: 思路是抽取页面所有链接,根据网站host以及一些逻辑分析,剔除掉不必要的网址。计算每个xpath对应的链接数,取其中最大值。代码依赖于jsoup、httpclient 一、抽取网页所有链接并进行一些过滤 1 public static ArrayList<String> getList(String
阅读全文
posted @ 2019-10-17 18:34 w_poison
阅读(233)
评论(0)
推荐(0)
公告