XML

XML 是独立于软件和硬件的信息传输工具。

  • XML 指可扩展标记语言(EXtensible Markup Language)
  • XML 是一种标记语言,很类似 HTML
  • XML 的设计宗旨是传输数据,而非显示数据
  • XML 标签没有被预定义。您需要自行定义标签。
  • XML 被设计为具有自我描述性。具有平台无关性。
  • XML 是 W3C 的推荐标准
  • XML可以经常在不中断应用程序的情况进行扩展。

 

用途:

  网络数据传输

  数据存储

  配置文件

 

没有任何行为的 XML

XML 是不作为的。

也许这有点难以理解,但是 XML 不会做任何事情。XML 被设计用来结构化、存储以及传输信息。

下面是 John 写给 George 的便签,存储为 XML:

<note>
<to>George</to>
<from>John</from>
<heading>Reminder</heading>
<body>Don't forget the meeting!</body>
</note>

上面的这条便签具有自我描述性。它拥有标题以及留言,同时包含了发送者和接受者的信息。

但是,这个 XML 文档仍然没有做任何事情。它仅仅是包装在 XML 标签中的纯粹的信息。我们需要编写软件或者程序,才能传送、接收和显示出这个文档。

 

XML 与 HTML 的主要差异:

  XML 不是 HTML 的替代。

  XML 和 HTML 为不同的目的而设计:

  XML 被设计为传输和存储数据,其焦点是数据的内容。

  HTML 被设计用来显示数据,其焦点是数据的外观。

  HTML 旨在显示信息,而 XML 旨在传输信息。

 

XML文件

  .XML文件是保存XML数据的一种方式,即xml文件是展示xml的一种方式

  XML数据也可以以其他的方式存在(如在内存中构建XML数据)

  XML语言     XML文件

 

语法格式:

XML文档声明
定义 XML 的版本 (1.0) 和所使用的编码(UTF-8)
<?xml version="1.0" encoding="UTF-8"?>


注释
注释不能写在文档文档声明前
注释不能嵌套注释
格式:
    <!-- 注释内容 -->
标记 ( 元素 / 标签 / 节点)
XML文档,由一个个的标记组成.
语法:
开始标记(开放标记): <标记名称>
结束标记(闭合标记): </标记名称>
标记名称: 自定义名称,必须遵循以下命名规则:
1.名称可以含字母、数字以及其他的字符
2.名称不能以数字或者标点符号开始
3.名称不能以字符 “xml”(或者 XML、Xml)开始
4.名称不能包含空格,不能包含冒号(:)
5.名称区分大小写
标记内容: 开始标记与结束标记之间 ,是标记的内容.

 最佳命名习惯

使名称具有描述性。使用下划线的名称也很不错。
名称应当比较简短,比如:<book_title>,而不是:<the_title_of_the_book>。
避免 "-" 字符。如果您按照这样的方式进行命名:"first-name",一些软件会认为你需要提取第一个单词。
避免 "." 字符。如果您按照这样的方式进行命名:"first.name",一些软件会认为 "name" 是对象 "first" 的属性。
避免 ":" 字符。冒号会被转换为命名空间来使用(稍后介绍)。
XML 文档经常有一个对应的数据库,其中的字段会对应 XML 文档中的元素。有一个实用的经验,即使用数据库的名称规则来命名 XML 文档中的元素。
非英语的字母比如 éòá 也是合法的 XML 元素名,不过需要留意当软件开发商不支持这些字符时可能出现的问题。

例:
<book>程序员的自我修养</book>
一个XML文档中, 必须有且且仅允许有一个根标记
正例:
<books>
    <book>Java从入门到精通</book>
    <book>Oracle从入门到精通</book>
</boooks>
反例:
    <book>Java从入门到精通</book>
    <book>Oracle从入门到精通</book>
标记可以嵌套, 但是不允许交叉.
正例:
<book>
    <name>Java从入门到精通</name>
    <price>50</price>
</book>
反例:
<book>
    <name>Java从入门到精通<price></name>
    50</price>
</book>
标记的层级称呼 (子标记, 父标记 , 兄弟标记, 后代标记 ,祖先标记)
例如:
<books>
    <book>
        <name>Java从入门到精通</name>
        <price>50</price>
    </book>
    <book>
        <name>Oracle从入门到精通</name>
        <price>50</price>
    </book>
</books>
name是book的子标记,也是book的后代标记
name是books的后代标记
name是price的兄弟标记
book是name的父标记
books是name的祖先标记

标记名称允许重复
标记除了开始和结束,还有属性。
标记中的属性,在标记开始时描述,由属性名和属性值组成。
格式:
在开始标记中,描述属性.
可以包含0-n个属性,每一个属性是一个键值对!
属性名不允许重复,键与值之间使用等号连接,多个属性之间使用空格分割。
属性值必须被引号引住。
注释:
  如果属性值本身包含双引号,那么有必要使用单引号包围它:
<gangster name='George "Shotgun" Ziegler'>
  或者可以使用实体引用: <gangster name="George &quot;Shotgun&quot; Ziegler">
案例:
<books>
    <book id="100001" groupid="1">
        <name>Java从入门到精通</name>
        <price>50</price>
    </book>
    <book id="100002" groupid="1">
        <name>Java从入门到精通</name>
        <price>50</price>
    </book>
</books>

 避免 XML 属性?因使用属性而引起的一些问题:

  • 属性无法包含多重的值(元素可以)
  • 属性无法描述树结构(元素可以)
  • 属性不易扩展(为未来的变化)
  • 属性难以阅读和维护

 请尽量使用元素来描述数据。而仅仅使用属性来提供与数据无关的信息。

 不要做这样的蠢事(这不是 XML 应该被使用的方式):

<note day="08" month="08" year="2008"
to="George" from="John" heading="Reminder" 
body="Don't forget the meeting!">
</note>

 针对元数据的 XML 属性

 有时候会向元素分配 ID 引用。这些 ID 索引可用于标识 XML 元素,它起作用的方式与 HTML 中 ID 属性是一样的。这个例子向我们演示了这种情况:

<messages>
  <note id="501">
    <to>George</to>
    <from>John</from>
    <heading>Reminder</heading>
    <body>Don't forget the meeting!</body>
  </note>
  <note id="502">
    <to>John</to>
    <from>George</from>
    <heading>Re: Reminder</heading>
    <body>I will not</body>
  </note> 
</messages>

 上面的 ID 仅仅是一个标识符,用于标识不同的便签。它并不是便签数据的组成部分。

 在此我们极力向您传递的理念是:元数据(有关数据的数据)应当存储为属性,而数据本身应当存储为元素。

例:

<?xml version="1.0" encoding="UTF-8"?>
<books>
    <!--书本,有名称和价格-->
    <book>
        <!--名称-->
        <name>Java从入门到精通</name>
        <price>66</price>
    </book>                
    <book>
        <name>Oracle从入门到精通</name>
        <price>77</price>
    </book>     
</books>
    

  在 XML 中,空格会被保留

 

CDATA

CDATA 是不应该由 XML 解析器解析的文本数据。
像 "<" 和 "&" 字符在 XML 元素中都是非法的。
"<" 会产生错误,因为解析器会把该字符解释为新元素的开始。
"&" 会产生错误,因为解析器会把该字符解释为字符实体的开始。

某些文本,比如 JavaScript 代码,包含大量 "<" 或 "&" 字符。为了避免错误,可以将脚本代
码定义为 CDATA。
CDATA 部分中的所有内容都会被解析器忽略。
CDATA 部分由 "<![CDATA[" 开始,由 "]]>" 结束:

 

实体引用

在 XML 中,一些字符拥有特殊的意义。

如果你把字符 "<" 放在 XML 元素中,会发生错误,这是因为解析器会把它当作新元素的开始。

这样会产生 XML 错误:

<message>if salary < 1000 then</message>

为了避免这个错误,请用实体引用来代替 "<" 字符:

<message>if salary &lt; 1000 then</message> 

在 XML 中,有 5 个预定义的实体引用:

&lt; < 小于
&gt; > 大于
&amp; & 和号
&apos; ' 单引号
&quot; " 引号

注释:在 XML 中,只有字符 "<" 和 "&" 确实是非法的。大于号是合法的,但是用实体引用来代替它是一个好习惯。

 

面试题:

问:

Java中有几种XML解析方式 ? 分别是什么 ? 有什么样的优缺点 ?

答:

四种
    SAX解析
        解析方式是事件驱动机制
        SAX解析器,逐行读取XML文件解析, 每当解析到一个标签的开始/结束/内容/属性时,触发事件。
        我们可以编写程序在这些事件发生时,进行相应的处理。
        优点:
            分析能够立即开始,而不是等待所有的数据被处理
            逐行加载,节省内存,有助于解析大于系统内存的文档
            有时不必解析整个文档,它可以在某个条件得到满足时停止解析
        缺点:
            单向解析,无法定位文档层次,无法同时访问同一文档的不同部分数据(因为逐行解析, 当解析第n行时, 第n-1行已经被释放了, 无法在进行操作了)
            无法得知事件发生时元素的层次, 只能自己维护节点的父/子关系
            只读解析方式, 无法修改XML文档的内容.
    DOM解析
        是用与平台和语言无关的方式表示XML文档的官方W3C标准,分析该结构通常需要加载整个文档,并在内存中建立文档树模型。程序员可以通过操作文档树, 来完成数据的获取、修改、
删除等。 优点: 文档在内存中加载, 允许对数据和结构做出更改. 访问是双向的,可以在任何时候在树中双向解析数据。 缺点: 文档全部加载在内存中 , 消耗资源大 JDOM解析 目的是成为Java特定文档模型,它简化与XML的交互并且比使用DOM实现更快。由于是第一个Java特定模型,JDOM一直得到大力推广和促进。 JDOM文档声明其目的是“使用20
%(或更少)的精力解决80%(或更多)Java/XML问题”(根据学习曲线假定为20%) 优点: 使用具体类而不是接口,简化了DOM的API。 大量使用了Java集合类,方便了Java开发人员。 缺点: 没有较好的灵活性。 性能不是那么优异。 DOM4J解析 它是JDOM的一种智能分支。 它合并了许多超出基本XML文档表示的功能,包括集成的XPath 支持、XML Schema支持以及用于大文档或流化文档的基于事件的处理。 它还提供了构建文档表示的选项。 它是一个非常优秀的Java XML API,具有性能优异、功能强大和极端易用使用的特点,同时它也是一个开放源代码的软件。
如今你可以看到越来越多的Java软件都在使用DOM4J来读写XML。 目前许多开源项目中大量采用DOM4J , 例如:Hibernate

 

DOM4J解析XML

步骤:

1. 引入jar文件 dom4j.jar
2. 创建一个指向XML文件的输入流   FileInputStream fis = new FileInputStream("xml文件的地址");
3. 创建一个XML读取工具对象   SAXReader sr = new SAXReader();
4. 使用读取工具对象, 读取XML文档的输入流 , 并得到文档对象   Document doc = sr.read(fis);
5. 通过文档对象, 获取XML文档中的根元素对象   Element root = doc.getRootElement();

 

文档对象  Document

指的是加载到内存的整个XML文档。
常用方法:
1. 通过文档对象, 获取XML文档中的根元素对象   Element root = doc.getRootElement();
2. 添加根节点   Element root = doc.addElement("根节点名称");

元素对象

指的是XML文档中的单个节点。

常用方法:

1. 获取节点名称
    String getName();

2. 获取节点内容
    String getText();

3. 设置节点内容
    String setText();

4. 根据子节点的名称 , 获取匹配名称的第一个子节点对象.
    Element element(String 子节点名称);

5. 获取所有的子节点对象
    List<Element> elements();

6. 获取节点的属性值
    String attributeValue(String 属性名称);

7. 获取子节点的内容
    String elementText(String 子节点名称);

8. 添加子节点
    Element addElement(String 子节点名称);

9. 添加属性
  void addAttribute(String 属性名,String 属性值);

 

解析本地文件

//1. 获取文件的输入流
FileInputStream fis = new
FileInputStream("D:\\books.xml");
//2. 创建XML读取工具对象
SAXReader sr = new SAXReader();
//3. 通过读取工具, 读取XML文档的输入流 , 并得到文档对象
Document doc = sr.read(fis);
//4. 通过文档对象 , 获取文档的根节点对象
Element root = doc.getRootElement();
//5. 通过根节点, 获取所有子节点
List<Element> es = root.elements();
//6. 循环遍历books
for (Element e : es) {
    //1. 获取id属性值
    String id = e.attributeValue("id");
    //2. 获取子节点name , 并获取它的内容
    String name = e.element("name").getText();
    //3. 获取子节点price , 并获取它的内容
    String info = e.element("price").getText();       
System.out.println("id="+id+",name="+name+",price="+price); }

 

解析网络文件

//1. 获取到XML资源的输入流
URL url = new URL("https://www.w3school.com.cn/example/xmle/note.xml");
URLConnection conn = url.openConnection();
InputStream is = conn.getInputStream();
//2. 创建一个XML读取对象
SAXReader sr = new SAXReader();
//3. 通过读取对象 读取XML数据,并返回文档对象
Document doc = sr.read(is);
//4. 获取根节点
Element root = doc.getRootElement();
//5. 解析内容
String to= root.elementText("to");
if("George".equals(to)){
    System.out.println("yes");
}

 

DOM4J - XPATH解析XML

通过路径快速的查找一个或一组元素
路径表达式:
1.  /       : 从根节点开始查找
2. // : 从发起查找的节点位置 查找后代节点 ***
3. . : 查找当前节点 4. .. : 查找父节点 5. @ : 选择属性. * 属性使用方式: [@属性名='值'] [@属性名>'值'] [@属性名<'值'] [@属性名!='值'] books: 路径: //book[@id='1']//name books book id=1 name price book id=2 name price

使用步骤

通过Node类的两个方法, 来完成查找:
(Node是 Document 与 Element 的父接口)
方法1.
  //根据路径表达式, 查找匹配的单个节点
  Element e = selectSingleNode("路径表达式");
方法2.
  List<Element> es = selectNodes("路径表达式");
案例:
//1. 获取到XML资源的输入流 URL url = new URL("https://www.w3school.com.cn/example/xmle/note.xml");
URLConnection conn = url.openConnection();
InputStream is
= conn.getInputStream();

//2. 创建一个XML读取对象
SAXReader sr = new SAXReader();

//3. 通过读取对象 读取XML数据,并返回文档对象
Document doc = sr.read(is);
Node node
= doc.selectSingleNode("//to");
System.out.println(
"接收者:"+node.getText());
is.close();

 

Java生成XML

//1. 通过文档帮助器, 创建空的文档对象
Document doc = DocumentHelper.createDocument();
//2. 向文档对象中, 加入根节点对象
Element books = doc.addElement("books");
//3. 向根节点中 丰富子节点
for(int i=0;i<10;i++) {
//向根节点中加入10个book节点.
Element book = books.addElement("book");
//向book节点, 加入id属性
book.addAttribute("id", 1+i+"");
//向book节点中加入name和info节点
Element name = book.addElement("name");
Element info = book.addElement("price");
name.setText("Java"+i);
price.setText(51+i);
}
//4. 创建文件的输出流
FileOutputStream fos = new FileOutputStream("d:\\books.xml");
//5. 将文件输出流 , 转换为XML文档输出流
XMLWriter xw = new XMLWriter(fos);
//6. 写出XML文档
xw.write(doc);
//7. 释放资源
xw.close();
System.out.println("代码执行完毕");

 

XStream使用

快速的将Java中的对象, 转换为 XML字符串.

使用步骤:
1. 创建 XStream 对象
    XStream x = new XStream();
2.修改类生成的节点名称 (默认节点名称为 包名.类名)
    x.alias("节点名称",类名.class);
3. 传入对象 , 生成XML字符串
    String xml字符串 = x.toXML(对象);

案例:
Book b = new Book (001, "啦啦啦",  59);
XStream x = new XStream();
x.alias("name", Book .class);
String xml = x.toXML(p);
System.out.println(xml);

 

参考引用:

https://www.w3school.com.cn/xml/xml_intro.asp

 

 posted on 2021-03-25 23:34  一计  阅读(124)  评论(0)    收藏  举报