XML
XML 是独立于软件和硬件的信息传输工具。
- XML 指可扩展标记语言(EXtensible Markup Language)
- XML 是一种标记语言,很类似 HTML
- XML 的设计宗旨是传输数据,而非显示数据
- XML 标签没有被预定义。您需要自行定义标签。
- XML 被设计为具有自我描述性。具有平台无关性。
- XML 是 W3C 的推荐标准
- XML可以经常在不中断应用程序的情况进行扩展。
用途:
网络数据传输
数据存储
配置文件
没有任何行为的 XML
XML 是不作为的。
也许这有点难以理解,但是 XML 不会做任何事情。XML 被设计用来结构化、存储以及传输信息。
下面是 John 写给 George 的便签,存储为 XML:
<note> <to>George</to> <from>John</from> <heading>Reminder</heading> <body>Don't forget the meeting!</body> </note>
上面的这条便签具有自我描述性。它拥有标题以及留言,同时包含了发送者和接受者的信息。
但是,这个 XML 文档仍然没有做任何事情。它仅仅是包装在 XML 标签中的纯粹的信息。我们需要编写软件或者程序,才能传送、接收和显示出这个文档。
XML 与 HTML 的主要差异:
XML 不是 HTML 的替代。
XML 和 HTML 为不同的目的而设计:
XML 被设计为传输和存储数据,其焦点是数据的内容。
HTML 被设计用来显示数据,其焦点是数据的外观。
HTML 旨在显示信息,而 XML 旨在传输信息。
XML文件
.XML文件是保存XML数据的一种方式,即xml文件是展示xml的一种方式
XML数据也可以以其他的方式存在(如在内存中构建XML数据)
XML语言 ≠ XML文件
语法格式:
XML文档声明 定义 XML 的版本 (1.0) 和所使用的编码(UTF-8) <?xml version="1.0" encoding="UTF-8"?> 注释 注释不能写在文档文档声明前 注释不能嵌套注释 格式: <!-- 注释内容 -->
标记 ( 元素 / 标签 / 节点) XML文档,由一个个的标记组成. 语法: 开始标记(开放标记): <标记名称> 结束标记(闭合标记): </标记名称> 标记名称: 自定义名称,必须遵循以下命名规则: 1.名称可以含字母、数字以及其他的字符 2.名称不能以数字或者标点符号开始 3.名称不能以字符 “xml”(或者 XML、Xml)开始 4.名称不能包含空格,不能包含冒号(:) 5.名称区分大小写 标记内容: 开始标记与结束标记之间 ,是标记的内容.
最佳命名习惯
使名称具有描述性。使用下划线的名称也很不错。
名称应当比较简短,比如:<book_title>,而不是:<the_title_of_the_book>。
避免 "-" 字符。如果您按照这样的方式进行命名:"first-name",一些软件会认为你需要提取第一个单词。
避免 "." 字符。如果您按照这样的方式进行命名:"first.name",一些软件会认为 "name" 是对象 "first" 的属性。
避免 ":" 字符。冒号会被转换为命名空间来使用(稍后介绍)。
XML 文档经常有一个对应的数据库,其中的字段会对应 XML 文档中的元素。有一个实用的经验,即使用数据库的名称规则来命名 XML 文档中的元素。
非英语的字母比如 éòá 也是合法的 XML 元素名,不过需要留意当软件开发商不支持这些字符时可能出现的问题。
例: <book>程序员的自我修养</book>
一个XML文档中, 必须有且且仅允许有一个根标记 正例: <books> <book>Java从入门到精通</book> <book>Oracle从入门到精通</book> </boooks> 反例: <book>Java从入门到精通</book> <book>Oracle从入门到精通</book>
标记可以嵌套, 但是不允许交叉. 正例: <book> <name>Java从入门到精通</name> <price>50</price> </book> 反例: <book> <name>Java从入门到精通<price></name> 50</price> </book>
标记的层级称呼 (子标记, 父标记 , 兄弟标记, 后代标记 ,祖先标记) 例如: <books> <book> <name>Java从入门到精通</name> <price>50</price> </book> <book> <name>Oracle从入门到精通</name> <price>50</price> </book> </books> name是book的子标记,也是book的后代标记 name是books的后代标记 name是price的兄弟标记 book是name的父标记 books是name的祖先标记 标记名称允许重复
标记除了开始和结束,还有属性。 标记中的属性,在标记开始时描述,由属性名和属性值组成。 格式: 在开始标记中,描述属性. 可以包含0-n个属性,每一个属性是一个键值对! 属性名不允许重复,键与值之间使用等号连接,多个属性之间使用空格分割。 属性值必须被引号引住。
注释:
如果属性值本身包含双引号,那么有必要使用单引号包围它:<gangster name='George "Shotgun" Ziegler'>
或者可以使用实体引用: <gangster name="George "Shotgun" Ziegler">
案例: <books> <book id="100001" groupid="1"> <name>Java从入门到精通</name> <price>50</price> </book> <book id="100002" groupid="1"> <name>Java从入门到精通</name> <price>50</price> </book> </books>
避免 XML 属性?因使用属性而引起的一些问题:
- 属性无法包含多重的值(元素可以)
- 属性无法描述树结构(元素可以)
- 属性不易扩展(为未来的变化)
- 属性难以阅读和维护
请尽量使用元素来描述数据。而仅仅使用属性来提供与数据无关的信息。
不要做这样的蠢事(这不是 XML 应该被使用的方式):
<note day="08" month="08" year="2008" to="George" from="John" heading="Reminder" body="Don't forget the meeting!"> </note>
针对元数据的 XML 属性
有时候会向元素分配 ID 引用。这些 ID 索引可用于标识 XML 元素,它起作用的方式与 HTML 中 ID 属性是一样的。这个例子向我们演示了这种情况:
<messages> <noteid="501"> <to>George</to> <from>John</from> <heading>Reminder</heading> <body>Don't forget the meeting!</body> </note> <noteid="502"> <to>John</to> <from>George</from> <heading>Re: Reminder</heading> <body>I will not</body> </note> </messages>
上面的 ID 仅仅是一个标识符,用于标识不同的便签。它并不是便签数据的组成部分。
在此我们极力向您传递的理念是:元数据(有关数据的数据)应当存储为属性,而数据本身应当存储为元素。
例: <?xml version="1.0" encoding="UTF-8"?> <books> <!--书本,有名称和价格--> <book> <!--名称--> <name>Java从入门到精通</name> <price>66</price> </book> <book> <name>Oracle从入门到精通</name> <price>77</price> </book> </books>
在 XML 中,空格会被保留
CDATA
CDATA 是不应该由 XML 解析器解析的文本数据。 像 "<" 和 "&" 字符在 XML 元素中都是非法的。 "<" 会产生错误,因为解析器会把该字符解释为新元素的开始。 "&" 会产生错误,因为解析器会把该字符解释为字符实体的开始。 某些文本,比如 JavaScript 代码,包含大量 "<" 或 "&" 字符。为了避免错误,可以将脚本代 码定义为 CDATA。 CDATA 部分中的所有内容都会被解析器忽略。 CDATA 部分由 "<![CDATA[" 开始,由 "]]>" 结束:
实体引用
在 XML 中,一些字符拥有特殊的意义。
如果你把字符 "<" 放在 XML 元素中,会发生错误,这是因为解析器会把它当作新元素的开始。
这样会产生 XML 错误:
<message>if salary < 1000 then</message>
为了避免这个错误,请用实体引用来代替 "<" 字符:
<message>if salary < 1000 then</message>
在 XML 中,有 5 个预定义的实体引用:
| < | < | 小于 |
| > | > | 大于 |
| & | & | 和号 |
| ' | ' | 单引号 |
| " | " | 引号 |
注释:在 XML 中,只有字符 "<" 和 "&" 确实是非法的。大于号是合法的,但是用实体引用来代替它是一个好习惯。
面试题:
问:
Java中有几种XML解析方式 ? 分别是什么 ? 有什么样的优缺点 ?
答:
四种 SAX解析 解析方式是事件驱动机制 SAX解析器,逐行读取XML文件解析, 每当解析到一个标签的开始/结束/内容/属性时,触发事件。 我们可以编写程序在这些事件发生时,进行相应的处理。 优点: 分析能够立即开始,而不是等待所有的数据被处理 逐行加载,节省内存,有助于解析大于系统内存的文档 有时不必解析整个文档,它可以在某个条件得到满足时停止解析 缺点: 单向解析,无法定位文档层次,无法同时访问同一文档的不同部分数据(因为逐行解析, 当解析第n行时, 第n-1行已经被释放了, 无法在进行操作了) 无法得知事件发生时元素的层次, 只能自己维护节点的父/子关系 只读解析方式, 无法修改XML文档的内容. DOM解析 是用与平台和语言无关的方式表示XML文档的官方W3C标准,分析该结构通常需要加载整个文档,并在内存中建立文档树模型。程序员可以通过操作文档树, 来完成数据的获取、修改、
删除等。 优点: 文档在内存中加载, 允许对数据和结构做出更改. 访问是双向的,可以在任何时候在树中双向解析数据。 缺点: 文档全部加载在内存中 , 消耗资源大 JDOM解析 目的是成为Java特定文档模型,它简化与XML的交互并且比使用DOM实现更快。由于是第一个Java特定模型,JDOM一直得到大力推广和促进。 JDOM文档声明其目的是“使用20%(或更少)的精力解决80%(或更多)Java/XML问题”(根据学习曲线假定为20%) 优点: 使用具体类而不是接口,简化了DOM的API。 大量使用了Java集合类,方便了Java开发人员。 缺点: 没有较好的灵活性。 性能不是那么优异。 DOM4J解析 它是JDOM的一种智能分支。 它合并了许多超出基本XML文档表示的功能,包括集成的XPath 支持、XML Schema支持以及用于大文档或流化文档的基于事件的处理。 它还提供了构建文档表示的选项。 它是一个非常优秀的Java XML API,具有性能优异、功能强大和极端易用使用的特点,同时它也是一个开放源代码的软件。
如今你可以看到越来越多的Java软件都在使用DOM4J来读写XML。 目前许多开源项目中大量采用DOM4J , 例如:Hibernate
DOM4J解析XML
步骤:
1. 引入jar文件 dom4j.jar
2. 创建一个指向XML文件的输入流 FileInputStream fis = new FileInputStream("xml文件的地址");
3. 创建一个XML读取工具对象 SAXReader sr = new SAXReader();
4. 使用读取工具对象, 读取XML文档的输入流 , 并得到文档对象 Document doc = sr.read(fis);
5. 通过文档对象, 获取XML文档中的根元素对象 Element root = doc.getRootElement();
文档对象 Document
指的是加载到内存的整个XML文档。
常用方法:
1. 通过文档对象, 获取XML文档中的根元素对象 Element root = doc.getRootElement();
2. 添加根节点 Element root = doc.addElement("根节点名称");
元素对象
指的是XML文档中的单个节点。 常用方法: 1. 获取节点名称 String getName(); 2. 获取节点内容 String getText(); 3. 设置节点内容 String setText(); 4. 根据子节点的名称 , 获取匹配名称的第一个子节点对象. Element element(String 子节点名称); 5. 获取所有的子节点对象 List<Element> elements(); 6. 获取节点的属性值 String attributeValue(String 属性名称); 7. 获取子节点的内容 String elementText(String 子节点名称); 8. 添加子节点 Element addElement(String 子节点名称);
9. 添加属性
void addAttribute(String 属性名,String 属性值);
解析本地文件
//1. 获取文件的输入流 FileInputStream fis = new FileInputStream("D:\\books.xml"); //2. 创建XML读取工具对象 SAXReader sr = new SAXReader(); //3. 通过读取工具, 读取XML文档的输入流 , 并得到文档对象 Document doc = sr.read(fis); //4. 通过文档对象 , 获取文档的根节点对象 Element root = doc.getRootElement(); //5. 通过根节点, 获取所有子节点 List<Element> es = root.elements(); //6. 循环遍历books for (Element e : es) { //1. 获取id属性值 String id = e.attributeValue("id"); //2. 获取子节点name , 并获取它的内容 String name = e.element("name").getText(); //3. 获取子节点price , 并获取它的内容 String info = e.element("price").getText();
System.out.println("id="+id+",name="+name+",price="+price); }
解析网络文件
//1. 获取到XML资源的输入流 URL url = new URL("https://www.w3school.com.cn/example/xmle/note.xml"); URLConnection conn = url.openConnection(); InputStream is = conn.getInputStream(); //2. 创建一个XML读取对象 SAXReader sr = new SAXReader(); //3. 通过读取对象 读取XML数据,并返回文档对象 Document doc = sr.read(is); //4. 获取根节点 Element root = doc.getRootElement(); //5. 解析内容 String to= root.elementText("to"); if("George".equals(to)){ System.out.println("yes"); }
DOM4J - XPATH解析XML
通过路径快速的查找一个或一组元素 路径表达式: 1. / : 从根节点开始查找
2. // : 从发起查找的节点位置 查找后代节点 *** 3. . : 查找当前节点 4. .. : 查找父节点 5. @ : 选择属性. * 属性使用方式: [@属性名='值'] [@属性名>'值'] [@属性名<'值'] [@属性名!='值'] books: 路径: //book[@id='1']//name books book id=1 name price book id=2 name price
使用步骤
通过Node类的两个方法, 来完成查找: (Node是 Document 与 Element 的父接口) 方法1. //根据路径表达式, 查找匹配的单个节点 Element e = selectSingleNode("路径表达式"); 方法2. List<Element> es = selectNodes("路径表达式");
案例://1. 获取到XML资源的输入流 URL url = new URL("https://www.w3school.com.cn/example/xmle/note.xml");
URLConnection conn = url.openConnection();
InputStream is = conn.getInputStream();
//2. 创建一个XML读取对象
SAXReader sr = new SAXReader();
//3. 通过读取对象 读取XML数据,并返回文档对象
Document doc = sr.read(is);
Node node = doc.selectSingleNode("//to");
System.out.println("接收者:"+node.getText());
is.close();
Java生成XML
//1. 通过文档帮助器, 创建空的文档对象 Document doc = DocumentHelper.createDocument(); //2. 向文档对象中, 加入根节点对象 Element books = doc.addElement("books"); //3. 向根节点中 丰富子节点 for(int i=0;i<10;i++) { //向根节点中加入10个book节点. Element book = books.addElement("book"); //向book节点, 加入id属性 book.addAttribute("id", 1+i+""); //向book节点中加入name和info节点 Element name = book.addElement("name"); Element info = book.addElement("price"); name.setText("Java"+i); price.setText(51+i); } //4. 创建文件的输出流 FileOutputStream fos = new FileOutputStream("d:\\books.xml"); //5. 将文件输出流 , 转换为XML文档输出流 XMLWriter xw = new XMLWriter(fos); //6. 写出XML文档 xw.write(doc); //7. 释放资源 xw.close(); System.out.println("代码执行完毕");
XStream使用
快速的将Java中的对象, 转换为 XML字符串. 使用步骤: 1. 创建 XStream 对象 XStream x = new XStream(); 2.修改类生成的节点名称 (默认节点名称为 包名.类名) x.alias("节点名称",类名.class); 3. 传入对象 , 生成XML字符串 String xml字符串 = x.toXML(对象); 案例: Book b = new Book (001, "啦啦啦", 59); XStream x = new XStream(); x.alias("name", Book .class); String xml = x.toXML(p); System.out.println(xml);
参考引用:
https://www.w3school.com.cn/xml/xml_intro.asp
posted on
浙公网安备 33010602011771号