MSVC下快速Unicode I/O

http://blog.kingsamchen.com/archives/863

如果需要往console输出包含非ASCII字符的宽字符串，一个比较快速的方法是使用WriteConsoleW这个API。

如果想兼容crt和STL的方式，例如使用wprintf和std::wcout，则可以用另一种快速的方法：使用_setmode来改变底层的translation mode。

1
2
3
std::wstring ws = L"Fuckyou.我抢劫你什么,一百块都不给我";
_setmode(_fileno(stdout), _O_U16TEXT);
std::wcout << ws;   // or using wprintf_s

参考文档可以看这里，_fileno从一个FILE*得到对应的file descriptor，第二个参数指定目标模式。

对比其他需要设置locale的方法（要么通过setlocale，要么通过STL的imbue），前者很容易一个不小心就把其他设置也连着一块给改了；后者经常忘了怎么用。

额外福利

第二个参数还可以使用_O_U8TEXT，这样系统I/O的时候会自动将wide-string转换成utf-8编码的字符串。利用_fileno获取目标文件的描述符，则可以将宽字符直接以utf-8编码的方式输出到目标文件。

1

2

3

4

5


std::wstring
ws
=
L"Fuckyou.我抢劫你什么,一百块都不给我";

FILE*
fp
=
nullptr;

fopen_s(&fp,
"C:\\encoding.dat",
"w");

_setmode(_fileno(fp),
_O_U8TEXT);

fwrite(ws.data(),
sizeof(wchar_t),
ws.size(),
fp);

不过由于没有靠谱的方法从std::fstream中获取FILE*，所以这种方式的文件I/O不能使用STL的相关设施。

–EOF–

无论使用_O_U8TEXT还是_O_U16TEXT，源字符串都必须是宽字符串，系统会在IO的时候根据需要做自动的编码转换。

这种设计看起来比较吻合Windows现在的，以UTF-16/wide-string为内部编码，需要时（主要是涉及到文件I/O等）转换为其他编码思路。

C++11虽然已经开始提供各种utf编码标准设施，但是utf-8编码的字符串仍然要以u8为前缀，虽然现在VS2013以及VS14都没有迹象表明要支持这个特性，但是这个proposal起码不会破坏MSVC的原始行为，至少为未来实现留下一点可能。至于什么时候能用上这个设施，就看VS团队了。

posted @ 2015-04-11 16:43 N3verL4nd 阅读(284) 评论(0) 收藏举报

刷新页面返回顶部

晚晴小筑

Talk is cheap. Show me the code.

MSVC下快速Unicode I/O

额外福利

–EOF–

公告