iOS文本文件的编码检测

windows上很多文本未必是用UTF8,所以在iOS上读取的时候，如何得到文件的编码是个问题。网上有很多读取中文的例子，但是那些不够通用。比如说要读取日文，韩文，阿拉伯文等等的时候，就不行了（虽然一般的app不一定会有这样的需求）。

NSString自己带一个函数：

+ (instancetype)stringWithContentsOfURL:(NSURL *)url usedEncoding:(NSStringEncoding *)enc error:(NSError **)error;

如果String创建成功，enc会返回使用的NSStringEncoding。但是这个方法对于NSStringEncoding以外的编码都不一定能成功创建NSString，同时也不会返回error。
Apple 的官方文档提供了读取未知encoding数据的一些参考步骤：

简单的总结，就是不停的用encoding去测试。这其中有个小技巧，根据程序面向的用户，把用到的encoding按可能性排列下，这样最有希望获得需要的结果。
虽然Apple的文档给出了这样的解决方案，但是发现很多阅读App读取各种编码方式的文件，毫无压力。因此，这里一定有其他方法。问了某道友，说chardet可以，可是一搜，发现是python实现！虽然没结果，不过我发现这是个非常普遍的问题。于是，再次搜索查找，找到了BOM，找到了mozzilla charset detector，找到了uchardet。uchardet的源码在github上。他的基本原理好像也是用编码去检测，谁先返回，就确认是哪个编码（这里不确定，未深究）。

项目是C/C++实现，直接添加进iOS工程，记得修改使用到的文件后缀为mm，运行后测试，发现能很好的识别我遇到的几种编码文件。项目中有使用的例子，就不贴图说明使用过程了。

需要说明的是，对于需要使用kCFStringEncodingGB_18030_2000来创建的中文文本，识别出来的居然是IBM855。 google了下，也不知道IBM855是啥意思。为了赶时间，暂时对需要的几种编码做了映射。

如果有哪位知道的，麻烦指点指点，这里先谢过了。

本文已同步到： http://icocoa.tk/2013/11/16/ios文本文件的编码检测/，欢迎访问

posted on 2013-11-16 22:20 scorpiozj 阅读(2153) 评论(0) 收藏举报