XML

XML 是独立于软件和硬件的信息传输工具。

XML 指可扩展标记语言（EXtensible Markup Language）
XML 是一种标记语言，很类似 HTML
XML 的设计宗旨是传输数据，而非显示数据
XML 标签没有被预定义。您需要自行定义标签。
XML 被设计为具有自我描述性。具有平台无关性。
XML 是 W3C 的推荐标准
XML可以经常在不中断应用程序的情况进行扩展。

用途：

　　网络数据传输

　　数据存储

　　配置文件

没有任何行为的 XML

XML 是不作为的。

也许这有点难以理解，但是 XML 不会做任何事情。XML 被设计用来结构化、存储以及传输信息。

下面是 John 写给 George 的便签，存储为 XML：

<note>
<to>George</to>
<from>John</from>
<heading>Reminder</heading>
<body>Don't forget the meeting!</body>
</note>

上面的这条便签具有自我描述性。它拥有标题以及留言，同时包含了发送者和接受者的信息。

但是，这个 XML 文档仍然没有做任何事情。它仅仅是包装在 XML 标签中的纯粹的信息。我们需要编写软件或者程序，才能传送、接收和显示出这个文档。

XML 与 HTML 的主要差异:

　　XML 不是 HTML 的替代。

　　XML 和 HTML 为不同的目的而设计：

　　XML 被设计为传输和存储数据，其焦点是数据的内容。

　　HTML 被设计用来显示数据，其焦点是数据的外观。

　　HTML 旨在显示信息，而 XML 旨在传输信息。

XML文件

　　.XML文件是保存XML数据的一种方式，即xml文件是展示xml的一种方式

　　XML数据也可以以其他的方式存在（如在内存中构建XML数据）

　　XML语言 ≠ XML文件

语法格式：

XML文档声明
定义 XML 的版本 (1.0) 和所使用的编码（UTF-8）
<?xml version="1.0" encoding="UTF-8"?>


注释
注释不能写在文档文档声明前
注释不能嵌套注释
格式:
    <!-- 注释内容 -->

标记 ( 元素 / 标签 / 节点)
XML文档,由一个个的标记组成.
语法:
开始标记(开放标记): <标记名称>
结束标记(闭合标记): </标记名称>
标记名称: 自定义名称，必须遵循以下命名规则：
1.名称可以含字母、数字以及其他的字符
2.名称不能以数字或者标点符号开始
3.名称不能以字符 “xml”（或者 XML、Xml）开始
4.名称不能包含空格，不能包含冒号（:）
5.名称区分大小写
标记内容: 开始标记与结束标记之间 ,是标记的内容.

　最佳命名习惯

使名称具有描述性。使用下划线的名称也很不错。

名称应当比较简短，比如：<book_title>，而不是：<the_title_of_the_book>。

避免 "-" 字符。如果您按照这样的方式进行命名："first-name"，一些软件会认为你需要提取第一个单词。

避免 "." 字符。如果您按照这样的方式进行命名："first.name"，一些软件会认为 "name" 是对象 "first" 的属性。

避免 ":" 字符。冒号会被转换为命名空间来使用（稍后介绍）。

XML 文档经常有一个对应的数据库，其中的字段会对应 XML 文档中的元素。有一个实用的经验，即使用数据库的名称规则来命名 XML 文档中的元素。

非英语的字母比如 éòá 也是合法的 XML 元素名，不过需要留意当软件开发商不支持这些字符时可能出现的问题。


例：
<book>程序员的自我修养</book>

一个XML文档中, 必须有且且仅允许有一个根标记
正例:
<books>
    <book>Java从入门到精通</book>
    <book>Oracle从入门到精通</book>
</boooks>
反例:
    <book>Java从入门到精通</book>
    <book>Oracle从入门到精通</book>

标记可以嵌套, 但是不允许交叉.
正例:
<book>
    <name>Java从入门到精通</name>
    <price>50</price>
</book>
反例:
<book>
    <name>Java从入门到精通<price></name>
    50</price>
</book>

标记的层级称呼 (子标记, 父标记 , 兄弟标记, 后代标记 ,祖先标记)
例如:
<books>
    <book>
        <name>Java从入门到精通</name>
        <price>50</price>
    </book>
    <book>
        <name>Oracle从入门到精通</name>
        <price>50</price>
    </book>
</books>
name是book的子标记，也是book的后代标记
name是books的后代标记
name是price的兄弟标记
book是name的父标记
books是name的祖先标记

标记名称允许重复

标记除了开始和结束，还有属性。
标记中的属性，在标记开始时描述，由属性名和属性值组成。
格式:
在开始标记中，描述属性.
可以包含0-n个属性，每一个属性是一个键值对！
属性名不允许重复，键与值之间使用等号连接，多个属性之间使用空格分割。
属性值必须被引号引住。
注释：
　　如果属性值本身包含双引号，那么有必要使用单引号包围它：<gangster name='George "Shotgun" Ziegler'>
　　或者可以使用实体引用: <gangster name="George &quot;Shotgun&quot; Ziegler">

案例:
<books>
    <book id="100001" groupid="1">
        <name>Java从入门到精通</name>
        <price>50</price>
    </book>
    <book id="100002" groupid="1">
        <name>Java从入门到精通</name>
        <price>50</price>
    </book>
</books>

　避免 XML 属性？因使用属性而引起的一些问题：

属性无法包含多重的值（元素可以）
属性无法描述树结构（元素可以）
属性不易扩展（为未来的变化）
属性难以阅读和维护

　请尽量使用元素来描述数据。而仅仅使用属性来提供与数据无关的信息。

　不要做这样的蠢事（这不是 XML 应该被使用的方式）：

<note day="08" month="08" year="2008"
to="George" from="John" heading="Reminder" 
body="Don't forget the meeting!">
</note>

　针对元数据的 XML 属性

　有时候会向元素分配 ID 引用。这些 ID 索引可用于标识 XML 元素，它起作用的方式与 HTML 中 ID 属性是一样的。这个例子向我们演示了这种情况：

<messages>
  <note id="501">
    <to>George</to>
    <from>John</from>
    <heading>Reminder</heading>
    <body>Don't forget the meeting!</body>
  </note>
  <note id="502">
    <to>John</to>
    <from>George</from>
    <heading>Re: Reminder</heading>
    <body>I will not</body>
  </note> 
</messages>

　上面的 ID 仅仅是一个标识符，用于标识不同的便签。它并不是便签数据的组成部分。

　在此我们极力向您传递的理念是：元数据（有关数据的数据）应当存储为属性，而数据本身应当存储为元素。

例：

<?xml version="1.0" encoding="UTF-8"?>
<books>
    <!--书本，有名称和价格-->
    <book>
        <!--名称-->
        <name>Java从入门到精通</name>
        <price>66</price>
    </book>                
    <book>
        <name>Oracle从入门到精通</name>
        <price>77</price>
    </book>     
</books>

　　在 XML 中，空格会被保留

CDATA

CDATA 是不应该由 XML 解析器解析的文本数据。
像 "<" 和 "&" 字符在 XML 元素中都是非法的。
"<" 会产生错误，因为解析器会把该字符解释为新元素的开始。
"&" 会产生错误，因为解析器会把该字符解释为字符实体的开始。

某些文本，比如 JavaScript 代码，包含大量 "<" 或 "&" 字符。为了避免错误，可以将脚本代
码定义为 CDATA。
CDATA 部分中的所有内容都会被解析器忽略。
CDATA 部分由 "<![CDATA[" 开始，由 "]]>" 结束：

实体引用

在 XML 中，一些字符拥有特殊的意义。

如果你把字符 "<" 放在 XML 元素中，会发生错误，这是因为解析器会把它当作新元素的开始。

这样会产生 XML 错误：

<message>if salary < 1000 then</message>

为了避免这个错误，请用实体引用来代替 "<" 字符：

<message>if salary &lt; 1000 then</message>

在 XML 中，有 5 个预定义的实体引用：

<	<	小于
>	>	大于
&	&	和号
'	'	单引号
"	"	引号

注释：在 XML 中，只有字符 "<" 和 "&" 确实是非法的。大于号是合法的，但是用实体引用来代替它是一个好习惯。

面试题：

问：

Java中有几种XML解析方式 ? 分别是什么 ? 有什么样的优缺点 ?

答：

四种
    SAX解析
        解析方式是事件驱动机制
        SAX解析器，逐行读取XML文件解析， 每当解析到一个标签的开始/结束/内容/属性时，触发事件。
        我们可以编写程序在这些事件发生时，进行相应的处理。
        优点:
            分析能够立即开始，而不是等待所有的数据被处理
            逐行加载，节省内存，有助于解析大于系统内存的文档
            有时不必解析整个文档，它可以在某个条件得到满足时停止解析
        缺点:
            单向解析，无法定位文档层次，无法同时访问同一文档的不同部分数据(因为逐行解析, 当解析第n行时, 第n-1行已经被释放了, 无法在进行操作了)
            无法得知事件发生时元素的层次, 只能自己维护节点的父/子关系
            只读解析方式, 无法修改XML文档的内容.
    DOM解析
        是用与平台和语言无关的方式表示XML文档的官方W3C标准，分析该结构通常需要加载整个文档，并在内存中建立文档树模型。程序员可以通过操作文档树, 来完成数据的获取、修改、
删除等。
        优点:
            文档在内存中加载, 允许对数据和结构做出更改.
            访问是双向的，可以在任何时候在树中双向解析数据。
        缺点:
            文档全部加载在内存中 , 消耗资源大
    JDOM解析
        目的是成为Java特定文档模型，它简化与XML的交互并且比使用DOM实现更快。由于是第一个Java特定模型，JDOM一直得到大力推广和促进。
JDOM文档声明其目的是“使用20%（或更少）的精力解决80%（或更多）Java/XML问题”（根据学习曲线假定为20%）
        优点:
            使用具体类而不是接口，简化了DOM的API。
            大量使用了Java集合类，方便了Java开发人员。
        缺点:
            没有较好的灵活性。
            性能不是那么优异。    
    DOM4J解析
        它是JDOM的一种智能分支。
        它合并了许多超出基本XML文档表示的功能，包括集成的XPath
支持、XML Schema支持以及用于大文档或流化文档的基于事件的处理。
        它还提供了构建文档表示的选项。
        它是一个非常优秀的Java XML API，具有性能优异、功能强大和极端易用使用的特点，同时它也是一个开放源代码的软件。
如今你可以看到越来越多的Java软件都在使用DOM4J来读写XML。
目前许多开源项目中大量采用DOM4J , 例如:Hibernate

DOM4J解析XML

步骤：

1. 引入jar文件 dom4j.jar

2. 创建一个指向XML文件的输入流
　　FileInputStream fis = new FileInputStream("xml文件的地址");

3. 创建一个XML读取工具对象
　　SAXReader sr = new SAXReader();

4. 使用读取工具对象, 读取XML文档的输入流 , 并得到文档对象
　　Document doc = sr.read(fis);

5. 通过文档对象, 获取XML文档中的根元素对象
　　Element root = doc.getRootElement();

文档对象 Document

指的是加载到内存的整个XML文档。

常用方法:

1. 通过文档对象, 获取XML文档中的根元素对象
　　Element root = doc.getRootElement();

2. 添加根节点
　　Element root = doc.addElement("根节点名称");

元素对象

指的是XML文档中的单个节点。

常用方法:

1. 获取节点名称
    String getName();

2. 获取节点内容
    String getText();

3. 设置节点内容
    String setText();

4. 根据子节点的名称 , 获取匹配名称的第一个子节点对象.
    Element element(String 子节点名称);

5. 获取所有的子节点对象
    List<Element> elements();

6. 获取节点的属性值
    String attributeValue(String 属性名称);

7. 获取子节点的内容
    String elementText(String 子节点名称);

8. 添加子节点
    Element addElement(String 子节点名称);

9. 添加属性 
　　void addAttribute(String 属性名,String 属性值);

解析本地文件

//1. 获取文件的输入流
FileInputStream fis = new
FileInputStream("D:\\books.xml");
//2. 创建XML读取工具对象
SAXReader sr = new SAXReader();
//3. 通过读取工具, 读取XML文档的输入流 , 并得到文档对象
Document doc = sr.read(fis);
//4. 通过文档对象 , 获取文档的根节点对象
Element root = doc.getRootElement();
//5. 通过根节点, 获取所有子节点
List<Element> es = root.elements();
//6. 循环遍历books
for (Element e : es) {
    //1. 获取id属性值
    String id = e.attributeValue("id");
    //2. 获取子节点name , 并获取它的内容
    String name = e.element("name").getText();
    //3. 获取子节点price , 并获取它的内容
    String info = e.element("price").getText();       
    System.out.println("id="+id+",name="+name+",price="+price);
}

解析网络文件

//1. 获取到XML资源的输入流
URL url = new URL("https://www.w3school.com.cn/example/xmle/note.xml");
URLConnection conn = url.openConnection();
InputStream is = conn.getInputStream();
//2. 创建一个XML读取对象
SAXReader sr = new SAXReader();
//3. 通过读取对象 读取XML数据，并返回文档对象
Document doc = sr.read(is);
//4. 获取根节点
Element root = doc.getRootElement();
//5. 解析内容
String to= root.elementText("to");
if("George".equals(to)){
    System.out.println("yes");
}

DOM4J - XPATH解析XML

通过路径快速的查找一个或一组元素
路径表达式:
1.  /       : 从根节点开始查找
2.  //      : 从发起查找的节点位置 查找后代节点 ***
3.  .       : 查找当前节点
4.  ..      : 查找父节点
5.  @      : 选择属性. *
属性使用方式:
    [@属性名='值']
    [@属性名>'值']
    [@属性名<'值']
    [@属性名!='值']
books:     路径：     //book[@id='1']//name
books
    book id=1
        name
        price
    book id=2
        name
        price

使用步骤

通过Node类的两个方法, 来完成查找:
(Node是 Document 与 Element 的父接口)
方法1.
　　//根据路径表达式, 查找匹配的单个节点
　　Element e = selectSingleNode("路径表达式");
方法2.
　　List<Element> es = selectNodes("路径表达式");

案例://1. 获取到XML资源的输入流
URL url = new URL("https://www.w3school.com.cn/example/xmle/note.xml"); 
URLConnection conn = url.openConnection(); 
InputStream is = conn.getInputStream(); 

//2. 创建一个XML读取对象 
SAXReader sr = new SAXReader(); 

//3. 通过读取对象 读取XML数据，并返回文档对象 
Document doc = sr.read(is); 
Node node = doc.selectSingleNode("//to"); 
System.out.println("接收者："+node.getText()); 
is.close();

Java生成XML

//1. 通过文档帮助器, 创建空的文档对象
Document doc = DocumentHelper.createDocument();
//2. 向文档对象中, 加入根节点对象
Element books = doc.addElement("books");
//3. 向根节点中 丰富子节点
for(int i=0;i<10;i++) {
//向根节点中加入10个book节点.
Element book = books.addElement("book");
//向book节点, 加入id属性
book.addAttribute("id", 1+i+"");
//向book节点中加入name和info节点
Element name = book.addElement("name");
Element info = book.addElement("price");
name.setText("Java"+i);
price.setText(51+i);
}
//4. 创建文件的输出流
FileOutputStream fos = new FileOutputStream("d:\\books.xml");
//5. 将文件输出流 , 转换为XML文档输出流
XMLWriter xw = new XMLWriter(fos);
//6. 写出XML文档
xw.write(doc);
//7. 释放资源
xw.close();
System.out.println("代码执行完毕");

XStream使用

快速的将Java中的对象, 转换为 XML字符串.

使用步骤:
1. 创建 XStream 对象
    XStream x = new XStream();
2.修改类生成的节点名称 (默认节点名称为 包名.类名)
    x.alias("节点名称",类名.class);
3. 传入对象 , 生成XML字符串
    String xml字符串 = x.toXML(对象);

案例:
Book b = new Book (001, "啦啦啦",  59);
XStream x = new XStream();
x.alias("name", Book .class);
String xml = x.toXML(p);
System.out.println(xml);

参考引用：

https://www.w3school.com.cn/xml/xml_intro.asp

posted on 2021-03-25 23:34 一计阅读(136) 评论(0) 收藏举报

刷新页面返回顶部

公告