jsoup 从元素抽取属性，文本和HTML

在运用爬虫时，需要从网页元素中抽取所需要的属性，文本或者HTML ,在这里，运用jsoup来获取这些信息的话会非常方便。

在运用jsoup是，需要下载相应的jar包

以下是一个简单的例子：

String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>";
Document doc = Jsoup.parse(html); //解析HTML字符串返回一个Document实现
Element link = doc.select("a").first(); //查找第一个a元素

String text = doc.body().text(); // "An example link"//取得字符串中的文本
String linkHref = link.attr("href"); // "http://example.com/"//取得链接地址
String linkText = link.text(); // "example""//取得链接地址中的文本

String linkOuterH = link.outerHtml(); // "<a href="http://example.com"><b>example</b></a>"
String linkInnerH = link.html(); // "<b>example</b>"//取得链接内的html内容

posted @ 2018-03-20 20:15 无CHEN殇阅读(253) 评论(0) 收藏举报

刷新页面返回顶部

无CHEN殇

jsoup 从元素抽取属性，文本和HTML

公告