2008年12月10日

Perl Unicode全攻略

摘要: 耐心看完本文,相信你今后在unicode处理上不会再有什么问题。 本文内容适用于perl 5.8及其以上版本。 perl internal form 在Perl看来, 字符串只有两种形式。 一种是octets, 即8位序列, 也就是我们通常说的字节数组. 另一种utf8编码的字符串, perl管它叫string。 也就是说: Perl只认识两种编码: Ascii(octets)和utf8(... 阅读全文

posted @ 2008-12-10 14:31 starspace 阅读(795) 评论(1) 推荐(0) 编辑

实例详细介绍各种字符集编码转换问题 [转]

摘要: 本文背景: 本人在编程时需要匹配字符串,由此想到了如果文件是各种字符编码的话,匹配结果有可能不正确,那么,如何判断不同的字符集?如何在不同字符集之间做转换?对于UNICODE编码逐渐通用的情况下,我们软件人员如何从容应对? 本文首先对常用字符集进行总结,然后在字符集的显示及转换上以实例介绍,最后总结了编程中遇到的编码问题。 本文目的: 对字符集编码做详细介绍,关键配以实例讲解,降低问题的复杂度。 ... 阅读全文

posted @ 2008-12-10 14:29 starspace 阅读(655) 评论(0) 推荐(0) 编辑

Perl对中文的处理问题

摘要: 发信人: chaoslawful (Skeleton Warrior), 信区: Perl 标 题: 关于Perl对中文的处理问题 发信站: BBS 水木清华站 (Sat Oct 25 12:17:27 2003), 转信 大家经常使用正则表达式的字符集从字符串中抽取或排除中文字符,但是这样做很费事,效果也并不是很理想。实际上Perl从5.6开始已经开始在内部使用 utf8编码来表示字符,也就是... 阅读全文

posted @ 2008-12-10 14:28 starspace 阅读(831) 评论(0) 推荐(0) 编辑

perl对中文的处理(encode,decode)

摘要: 最近在处理中文时遇到乱码的问题,google了一下,发现下面这篇文章。茅塞顿开! Perl从5.6开始已经开始在内部使用utf8编码来表示字符,也就是说对中文以及其他语言字符的处理应该是完全没有问题的。我们只需要利用好Encode这个模块便能充分发挥Perl的utf8字符的优势了。 下面就以中文文本的处理为例进行说明,比如有一个字符串"测试文本",我们想要把这个中文字符串拆成单个字符,可以这样写:... 阅读全文

posted @ 2008-12-10 14:27 starspace 阅读(1534) 评论(0) 推荐(0) 编辑

perl与中文信息处理

摘要: 一、文件分割 #!/usr/bin/perl #此程序将一个大文本文件分成两个。 #以一个.txt结尾被分割文件作为参数。 #如果没有提供待分割文本,那么程序中止运行。 die if $#ARGV == -1; #输入文件以.txt结尾,输出文件替换.txt扩展名为.out1和.out2 $outfile1 = $ARGV[0]; $outfile2 = $ARGV[0]; $outfile... 阅读全文

posted @ 2008-12-10 14:23 starspace 阅读(880) 评论(0) 推荐(0) 编辑

CMD 命令速查手册

摘要: ASSOC 显示或修改文件扩展名关联。 AT 计划在计算机上运行的命令和程序。 ATTRIB 显示或更改文件属性。 BREAK 设置或清除扩展式 CTRL+C 检查。 CACLS 显示或修改文件的访问控制列表(ACLs)。 CALL 从另一个批处理程序调用这一个。 CD 显示当前目录的名称或将其更改。 CHCP 显示或设置活动代码页数。 CHDIR 显示当前目录的名称或将其更改。 ... 阅读全文

posted @ 2008-12-10 14:09 starspace 阅读(1207) 评论(0) 推荐(0) 编辑

导航