随笔档案「2009年12月11日」：正则表达式——去除文本中的非汉字（VB2005） ... - 万仓一黍

2009年12月11日

正则表达式——去除文本中的非汉字（VB2005）

摘要：本人由于工作关系，需要一段代码，将给定的字符串中的非汉字去除，只保留汉字部分。这个一般用正则表达式比较简单，网上有一些匹配汉字的正则表达式，拿来经过改造就能实现我前面的要求。注释一下，正则表达式[\u4e00-\u9fa5]表示匹配中文，则正则表达式[^\u4e00-\u9fa5]匹配非中文。用Replace方法将匹配的非中文替换为空字符串，也就是去除了文本中的非中文字符。代码格式修正于2012年1月5日Imports System.Text.RegularExpressionsPublic Class clsT Public Function OnlyChinese(... 阅读全文

posted @ 2009-12-11 18:00 万仓一黍阅读(17231) 评论(1) 推荐(0)

自动识别文字的编码以及读取所有文本——VB2005

摘要：在VB2005中，读取文本文件中的文本可以采用的方法是System.IO.File.ReadAllText，这个函数有两个参数，一个是文件的文件名（包含路径）；一个是文本的编码，如果省略，采用系统默认的编码。可是，一般的文本编码有ANSI、Unicode、UTF8等。如果编码的格式选择不对，则读出来是一段乱码。笔者依照网上的资料，编写一个函数，能自动根据判别文本的编码格式，首先是将文本文件的数据读到字节数组中，再判别文本的编码格式，最后将字节数组转化为文本。依据字节流，前三个字节标识着这个文本的编码方式。那么依据这三个字节的值，用不同的编码来解析这个字节流。这是下面这段代码的核心内... 阅读全文

posted @ 2009-12-11 08:29 万仓一黍阅读(2798) 评论(4) 推荐(1)

万仓一黍

代码随笔

公告