通过xpath获取html中的特定标签
package nekohtml;
import java.io.IOException;
import javax.xml.transform.TransformerException;
import org.apache.xpath.XPathAPI;
import org.cyberneko.html.parsers.DOMParser;
import org.w3c.dom.Document;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;
public class NekoHtmlAndXPath {
// 通过url,将相应的html解析为DOM文档
public static Document getDocument(String url) {
DOMParser parser = new DOMParser();
try {
parser.parse(url);
} catch (SAXException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
Document doc = parser.getDocument();
return doc;
}
// 通过XPath定位具体的节点
public static NodeList getExactNode(Document doc, String xp) {
NodeList list = null;
try {
list = XPathAPI.selectNodeList(doc, xp);
} catch (TransformerException e) {
e.printStackTrace();
}
return list;
}
public static void main(String[] args) {
String baidu = "http://www.baidu.com/";
String bPath = "//HTML//BODY//DIV[2]//P//MAP//AREA";
String yyt = "http://www.yinyuetai.com/mv/all?page=1";
String yPath = "/HTML/BODY/DIV[6]/DIV/DIV[2]/DIV[2]/DIV[3]/UL/LI/DIV[2]/H3/A";
// 将指定的页面解析为DOM文档
Document doc = getDocument(yyt);
// 根据xpath获得指定的节点
NodeList list = getExactNode(doc, yPath);
System.out.println("符合条件的结点个数为:" + list.getLength());
for (int i = 0; i < list.getLength(); i++) {
System.out.println("获取的节点属性为:"
+ list.item(i).getAttributes().getNamedItem("title"));
}
}
}
用到的jar包:xalan.jar;xercesImpl.jar;nekohtml.jar。
获取标签的XPath用到了firebug,有的时候需要做一些转换,因为firebug把html转换成了标准的DOM,所以会有极个别的xpath有点小问题。比如说可能会加上tbody标签,稍作改动即可。

浙公网安备 33010602011771号