第一章 XML概述
XML的起源、目标和优势
XML核心技术
- 文档描述、验证、约束技术 --DTD/Schema
- 文档转换技术--XSL
- 数据查询技术--XPath
- 链接技术--XLink/XPointer
- 编程接口--DOM/SAX
| <UL> <LI> TOM CRUISE <UL> <LI> CLIENT ID : 100 <LI> COMPANY : XYZ Corp. <LI> Email : tom@usa.net <LI> Phone : 3336767 <LI> Street Adress : 25th St. <LI> City : Toronto <LI> State : Toronto <LI> Zip : 20056 </UL> <LI> Arnold <UL> <LI> CLIENT ID : 200 <LI> COMPANY : ABC Corp. <LI> Email : arnold@uas.net <LI> Phone : 5557679 <LI> Street Adress : 3625th St. <LI> City : San Jose <LI> State : California <LI> Zip : 60098 </UL> </UL> |
HTML缺陷
- 没有表达内容的含义,并且只能用预定义的标记
- HTML 是“肤浅的”,HTML关心的是外观
- 要求文档过于完整(World Wide Wait)
- 没有真正的国际化
- 无法真正实现数据交互
- 链接机制不完善
- 不可重用
- 在网上,有很多类型的信息,但是很难找到你想要的信息片段
XML的优越性
- XML是使信息自描述的新语言。
- 信息共享——自定义数据格式,而且很容易使用工具读写
- 数据传递——支持各种通道的数据传输
- 数据重用——分离数据和显示
- 可扩展——文档包含语义
- 其他——容易阅读/工具/树形结构面向对象编程
XML解析器
- 什么是XML解析器--
读取XML文档并提供对文档内容的访问的软件模块。
类型:无验证的解释器和验证的解释器 - 解析器
MSXML IE
OpenXML
IBM XML4J
Apache Xerces
Oracel XML Parser
XML文档结构
解析:
一。 XML声明 <?xml version="1.0" encoding="UTF-8" standalone="yes"?>
XML声明一般是XML文档的第一行
XML声明由以下几个部分组成:
version - -文档符合XML1.0规范,现在只有1.0
encoding - -文档字符编码,默认为"UTF-8"
standalone - -文档定义是否在一个文件内 ="yes"(在一个文件) ="no"(不在一个文件内)
二。 根元素
每个XML文档必须有且只有一个根元素。
根元素是一个完全包括文档中其他所有元素的元素。
根元素的起始标记要放在所有其他元素的起始标记之前。
根元素的结束标记要放在所有其他元素的结束标记之后。
三。 元素
元素内容的类型:嵌套元素/字符数据/实体引用/ CDATA节/处理指令/注释
四。属性
| <book id="bk101"> |
一个元素可以有多个属性,它的基本格式为:<元素名 属性名="属性值">
特定的属性名称在同一个元素标记中只能出现一次
属性值不能包括<, >, &
五。实体
作用:避免重复输入 -- (宏、变量)
1.XML中五个预定义实体
2. 自定义实体语法:
<!DOCTYPE 根元素 [
<!ENTITY 实体名 "实体内容">
]>
引用已定义的实体:&实体名;
XML专用标记
一。注释 <!--这是一个注释-->
注释内容中不要出现--;
不要把注释放在标记中间;<Name <!--the name-->>TOM</Name>
注释不能嵌套;
可以在除标记以外的任何地方放注释。
二。处理指令PI
1. 处理指令用于XML解析器传递信息到应用程序
XML解析器是读取并保存XML文档内容的软件模块
应用程序是从解析器获取文档内容并处理和显示这些内容的独立软件模块
IE同时提供XML解析器和应用部分
2. 语法:<?目标 指令?>
PI必须以一个叫做目标的标识符开头,这个标识符遵从如同元素和属性一样的规则,目标是指令所指向的应用的名称。
指令是传递给应用程序的信息。
3. <?开始,?>结束
4. 样式表处理指令
样式表处理指令xml-stylesheet。这个处理指令必须出现在序言部分,在根元素之前。
<?xml-stylesheet type="type" href="uri" ?>
type="text/css" 或者 type="text/xsl"
三。 CDATA节
用于把整段文本解释为纯字符数据而不是标记的情况。包含大量<、>、&或者"字符。CDATA节中的所有字符都会被当作元素字符数据的常量部分,而不是XML标记。
语法:
<![CDATA[
。。。。。。。。
]]>
可以输入任意字符(除]]>外)
不能嵌套
文档类型定义
一。DOCTYPE
文档类型声明,紧跟XML声明之后,包含所有实体声明
语法:
<?xml version="1.0"?>
<!DOCTYPE 根元素标记名 [
<!--实体声明-->
]>
语法规范
1. 必须有XML声明语句 <?xml version="1.0" encoding="gb2312"?>
2. 必须有且仅有一个根元素
3. 标记大小写敏感
4. 属性值用引号
5. 标记成对
6. 空标记关闭
7. 元素正确嵌套
元素语法
1. 名称中可以包含字母、数字或者其它字符
2. 名称不能以数字和"_"(下划线)开头
3. 不能以XML/xml/Xml/…开头
4. 名称中不能含空格
5. 名称中不能含冒号(注:冒号留给命名空间使用)
总结
1. XML文档结构
文档、XML声明、根元素、
2. XML文档专用标记
注释、处理指令PI、CDATA节
3. 元素和属性
元素、属性的表示
4. 字符和实体引用
本文的实例
浙公网安备 33010602011771号