深度解析Cocoa异步请求和libxml2.dylib教程(2)
4、libxml的sax解析接口
iphone和服务器交互通常使用xml数据交换格式,因此本文中也涉及到了xml文件解析的问题。有许多有名气的xml解析器可供我们选择,如: BXML,TouchXML,KissXML,TinyXML的第三方库和GDataXML。
Xml解析分为两类,一类是DOM解析,一类为SAX解析。前者如GDataXML,解析过程中需要建立文档树,操作XML元素时通过树形结构进行导航。DOM解析的特点是便于程序员理解xml文档树结构,API 的使用简单;缺点是速度较SAX解析慢,且内存开销较大。在某些情况下,比如iphone开发,受制于有限的内存空间(一个应用最多可用10几m的内存), DOM解析无法使用(当然,在模拟器上是没有问题的)。
libxml2的是一个开放源码库,默认情况下iPhone SDK 中已经包括在内。它是一个基于C的API,所以在使用上比cocoa的 NSXML要麻烦许多(一种类似c函数的使用方式),但是该库同时支持DOM和SAX解析,其解析速度较快,而且占用内存小,是最适合使用在iphone上的解析器。从性能上讲,所有知名的解析器中,TBXML最快,但在内存占用上,libxml使用的内存开销是最小的。因此,我们决定使用libxml的sax接口。
首先,我们需要在project中导入framework:libxml2.dylib。
虽然libxml是sdk中自带的,但它的头文件却未放在默认的地方,因此还需要我们设置project的build选项:HEADER_SEARCH_PATHS = /usr/include/libxml2,否则libxml库不可用。
然后,我们就可以在源代码中 #import <libxml/tree.h> 了。
假设我们要实现这样的功能:有一个登录按钮,点击后将用户密码帐号发送http请求到服务器(用上文中介绍的异步请求技术),服务器进行验证后以xml文件方式返回验证结果。我们要用libxml的sax方式将这个xml文件解析出来。
服务器返回的xml文件格式可能如下:
<?xml version="1.0" encoding="GB2312" standalone="no" ?>
<root>
<login_info>
<login_status>true</login_status>
</login_info>
<List>
<system Name=xxx Path=xxx ImageIndex=xxx>
……
</List>
</root>
其中有我们最关心的1个元素:login_status 。
如果login_status返回false,说明登录验证失败,否则,服务器除返回login_status外,还会返回一个list元素,包含了一些用户的数据,这些数据是<system>元素的集合。
整个实现步骤见下。
首先,实现一个超类, 这个超类是一个抽象类,许多方法都只是空的,等待subclass去实现。
其中有3个方法与libxml的sax接口相关,是sax解析过程中的3个重要事件的回调方法,分别是元素的开始标记、元素体(开始标记和结束标记之间的文本)、结束标记。Sax中有许多的事件,但绝大部分时间,我们只需要处理这3个事件。因为很多时候,我们只会对xml文件中的元素属性和内容感兴趣,而通过这3个事件已经足以使我们读取到xml节点的属性和内容。
而成员变量中,_root变量是比较关键的,它以dictionary的形式保存了解析结果,因为任何xml文档的根节点都是root,所以无论什么样子的xml文件,都可以放在这个_root 中。
因此我们为 _root 变量提供了一个访问方法getResult,等xml解析结束,可以通过这个方法访问_root。
- #import <Foundation/Foundation.h>
- #import <libxml/tree.h>
- @interface BaseXmlParser : NSObject {
- NSStringEncoding enc;
- NSMutableDictionary* _root;
- }
- // Property
- - (void)startElementLocalName:(const xmlChar*)localname
- prefix:(const xmlChar*)prefix
- URI:(const xmlChar*)URI
- nb_namespaces:(int)nb_namespaces
- namespaces:(const xmlChar**)namespaces
- nb_attributes:(int)nb_attributes
- nb_defaulted:(int)nb_defaultedslo
- attributes:(const xmlChar**)attributes;
- - (void)endElementLocalName:(const xmlChar*)localname
- prefix:(const xmlChar*)prefix URI:(const xmlChar*)URI;
- - (void)charactersFound:(const xmlChar*)ch
- len:(int)len;
- -(NSDictionary*)getResult;
- @end
- #import "BaseXmlParser.h"
- @implementation BaseXmlParser
- // Property
- -(id)init{
- if(self=[super init]){
- //构建gb2312的encoding
- enc =CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);
- _root=[[NSMutableDictionary alloc]init];
- }
- return self;
- }
- -(void)dealloc{
- [_root release],_root=nil;
- [super dealloc];
- }
- #pragma mark -- libxml handler,主要是3个回调方法--
- //解析元素开始标记时触发,在这里取元素的属性值
- - (void)startElementLocalName:(const xmlChar*)localname
- prefix:(const xmlChar*)prefix
- URI:(const xmlChar*)URI
- nb_namespaces:(int)nb_namespaces
- namespaces:(const xmlChar**)namespaces
- nb_attributes:(int)nb_attributes
- nb_defaulted:(int)nb_defaultedslo
- attributes:(const xmlChar**)attributes
- {
- }
- //解析元素结束标记时触发
- - (void)endElementLocalName:(const xmlChar*)localname
- prefix:(const xmlChar*)prefix URI:(const xmlChar*)URI
- {
- }
- //解析元素体时触发
- - (void)charactersFound:(const xmlChar*)ch
- len:(int)len
- {
- }
- //返回解析结果
- -(NSDictionary*)getResult{
- return _root;
- }
- @end
现在我们需要扩展这个BaseXmlParser,并重载其中的3个sax方法。
该子类除了重载父类的3个方法外,还增加了几个成员变量。其中flag是一个int类型,用于sax解析的缘故,解析过程中需要合适的标志变量,用于标志当前处理到的元素标记。为了简单起见,我们没有为每一个标记都设立一个标志,而是统一使用一个int标志,比如flag为1时,表示正在处理login_status标记,为2时,表示正在处理system标记。
回顾前面的xml文件格式,我们其实只关心两种标记,login_status标记和system标记。Login_status标记没有属性,但它的元素体是我们关心的;而system标记则相反,它并没有元素体,但我们需要它的属性值。
这是一个很好的例子。因为它同时展示了属性的解析和元素体的解析。浏览整个类的代码,我们总结出3个sax事件的使用规律是:
如果要读取元素属性,需要在“元素开始标记读取”事件(即 startElementLocalName 方法)中处理;
如果要读取元素体文本,则在“元素体读取”事件(即 charactersFound方法)中处理;

浙公网安备 33010602011771号