随笔分类 -  Jsoup

摘要:参考了好多人的算法,但感觉太深奥了,自己写了一个,感觉效果还可以,不过还是有很多杂质在里面成功率没有测试过,以后校验。 public static String extractContent(String url) { Document document = JsoupUitl.readUrl(url); String orderHtml = document.toString().toLowerCase(); orderHtml = orderHtml.replaceAll("(?is)", ""); orderHtml = or... 阅读全文
posted @ 2014-01-08 22:43 杨桃 阅读(317) 评论(0) 推荐(0)
摘要:前面写了好多jsoup的例子现在写写小技巧吧(1) 得到document 的方法,(有时候这个不一定能得到document,可以看前面介绍的两个方法中的另一个方法,也可以将post 方法改成get ——在try里) public static Document readUrlFist(String url) { Document doc = null; Connection conn = Jsoup.connect(url); conn .header( "User-Ag... 阅读全文
posted @ 2013-01-29 10:34 杨桃 阅读(682) 评论(0) 推荐(0)
摘要:有两个推荐网址:http://www.open-open.com/jsoup/http://www.iteye.com/topic/1010581这两个队jsoup简单使用做了很好的指导我只提出比较实用的例子:当我们读取某些网址被屏蔽返回505 时可以尝试用一下代码// 读取URL public static Document readUrlFistT(String url) { Document doc = null; try { doc = Jsoup.connect(url).timeout(60 * 1000).userAgent( "Mozilla/4.0 (comp... 阅读全文
posted @ 2013-01-02 15:20 杨桃 阅读(2084) 评论(0) 推荐(0)