03 2014 档案

摘要:盘古分词平台兼容性===============================在使用Lucece.net,需要一个中文的分词组件,比较好的是[盘古分词](http://pangusegment.codeplex.com/),但是我希望能够在mono的环境下运行,就使用[moma](http://www.mono-project.com/MoMA)检查了一下盘古分词>Assembly Version Missing Not Implemented Todo P/Invoke>PanGu.dll 2.3.1.0 3 0 5 0>Calling Method Method Mis 阅读全文
posted @ 2014-03-30 21:12 张巍的博客 阅读(1237) 评论(2) 推荐(1)
摘要:想找一个简体中文与繁体中文相互转换的东西,但在.net里面能够找到的大部分都是使用了`Microsoft.VisualBasic.Strings.StrConv`这个方法,但是我想在mono的环境中使用,是不能够调用这个类的。于是自己做了个简单的转换类 首先找到gb2312的编码表,我找到上面的这个地址,然后在文本编辑器里将除了汉字以外的文字去掉,剩余了6763个字符,然后在word里利用简体转繁体的功能将6763个字符转换为对应的繁体中文字符。然后写了个小脚本将重复的部分排除掉。剩余2338个字符。代码-------------------- public class DotSTConv.. 阅读全文
posted @ 2014-03-29 12:27 张巍的博客 阅读(1922) 评论(0) 推荐(0)
摘要:httpWebRequest获取流和WebClient的文件抓取昨天写一个抓取,遇到了一个坑,就是在获取网络流的时候,人为的使用了stream.Length来获取流的长度,获取的时候会抛出错误,查了查文档,原因是某些流是无法获取到数据的长度的,所以不能直接得到。如果是常和stream打交道就能避免这个问题。其实直接使用do-while来获取就行了,代码如下: int i=0; do { byte[] buffer = new byte[1024]; i = stream.Read(buffer, 0, 1024); fs.Write(buffer, 0, i); } ... 阅读全文
posted @ 2014-03-20 14:45 张巍的博客 阅读(7639) 评论(0) 推荐(1)
摘要:HtmlAgilityPack是.net下使用xPath来解析html的类库,可以方便的做html的页面分析处理 项目地址: http://htmlagilitypack.codeplex.com/#####使用方式 HtmlDocument html = new HtmlDocument();//创建htmldocument对象 html.LoadHtml(html);//加载html页面内容 html为string HtmlNode htmlnode = html.DocumentNode; //获取当前页面的节点 HtmlNodeCollection nodea = htmlnode.S 阅读全文
posted @ 2014-03-19 14:55 张巍的博客 阅读(356) 评论(0) 推荐(0)