摘要: 本人由于工作关系,需要一段代码,将给定的字符串中的非汉字去除,只保留汉字部分。 这个一般用正则表达式比较简单,网上有一些匹配汉字的正则表达式,拿来经过改造就能实现我前面的要求。 注释一下,正则表达式[\u4e00-\u9fa5]表示匹配中文,则正则表达式[^\u4e00-\u9fa5]匹配非中文。用Replace方法将匹配的非中文替换为空字符串,也就是去除了文本中的非中文字符。 代码格式修正于2012年1月5日Imports System.Text.RegularExpressionsPublic Class clsT Public Function OnlyChinese(... 阅读全文
posted @ 2009-12-11 18:00 万仓一黍 阅读(16916) 评论(1) 推荐(0) 编辑
摘要: 在VB2005中,读取文本文件中的文本可以采用的方法是System.IO.File.ReadAllText,这个函数有两个参数,一个是文件的文件名(包含路径);一个是文本的编码,如果省略,采用系统默认的编码。可是,一般的文本编码有ANSI、Unicode、UTF8等。如果编码的格式选择不对,则读出来是一段乱码。 笔者依照网上的资料,编写一个函数,能自动根据判别文本的编码格式,首先是将文本文件的数据读到字节数组中,再判别文本的编码格式,最后将字节数组转化为文本。 依据字节流,前三个字节标识着这个文本的编码方式。那么依据这三个字节的值,用不同的编码来解析这个字节流。这是下面这段代码的核心内... 阅读全文
posted @ 2009-12-11 08:29 万仓一黍 阅读(2719) 评论(4) 推荐(1) 编辑