Atitit table的读取解析from html by jsoup java html paresr 目录 1. atitit.gui控件的定位与选择器 1 2. 读取表格流程 遍历表格ta

Atitit  table的读取解析from html by jsoup java html paresr

 

目录

1. atitit.gui控件的定位与选择器 1

2. 读取表格流程  遍历表格table 2

3. W3cdom标准化 2

3.1. HTML DOM 对象 2

3.2. Document 对象方法 2

4. /0NetApiPrj/src/htmlParseCls.java 2

 

 

html

 

 

  1. atitit.gui控件的定位与选择器

 

1. css选择器 1

2. 基本过滤选择器: 1

3. 内容过滤选择器: 2

4. 可视化过滤选择器: 2

5. 属性过滤选择器: 2

6. 子元素过滤选择器: 2

7. java jsoup的过滤器 2

7.1. css过滤器 2

7.2. 内容过滤器(带排除) 3

8. 参考 4

 

  1. 读取表格流程  遍历表格table
  2. W3cdom标准化
    1. HTML DOM 对象

 

    1. Document 对象方法

方法

描述

close()

关闭用 document.open() 方法打开的输出流,并显示选定的数据。

getElementById()

返回对拥有指定 id 的第一个对象的引用。

getElementsByName()

返回带有指定名称的对象集合。

getElementsByTagName()

返回带有指定标签名的对象集合。

open()

打开一个流,以收集来自任何 document.write() 或 document.writeln() 方法的输出。

write()

向文档写 HTML 表达式 或 JavaScript 代码。

writeln()

等同于 write() 方法,不同的是在每个表达式之后写一个换行符。

 

 

 

Prj

/0NetApiPrj

  1. /0NetApiPrj/src/htmlParseCls.java

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

 

public class htmlParseCls {

 

public static void main(String[] args) throws IOException {

String ht = "D:\\workspace\\0NetApiPrj\\assetsList.html";

Document doc = Jsoup.parse(new File(ht), "gbk");

Element Element_tab_elmt = doc.getElementById("table1");

Elements Elements_trs = Element_tab_elmt.getElementsByTag("tr");

for (Element element_tr : Elements_trs) {

Elements element_tr_tds = element_tr.getElementsByTag("td");

Map m = new HashMap();

m.put("no编号", element_tr_tds.get(0).text());

m.put("dept单位", element_tr_tds.get(1).text());

System.out.println(m);

}

}

 

posted @ 2018-12-21 13:42  attilaxAti  阅读(31)  评论(0编辑  收藏  举报