eaglet

本博专注于基于微软技术的搜索相关技术
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2008年9月5日

摘要: .net 框架号称永远不会发生内存泄漏,原因是其引入了内存回收的机制。但实际应用中,往往我们分配了对象但没有释放指向该对象的引用,导致对象永远无法释放。最常见的情况就是给对象添加了事件处理函数,但当不再使用该对象时却没有将该函数从对象的事件handler中减掉。另外如果分配了非托管内存,而没有手工释放,GC同样无能为力。所以当.net应用发生内存泄漏后如何跟踪应用的内存使用情况,定位到程序设计中的缺陷显得非常重要。本文将介绍通过.NET Memory Profiler来跟踪.net应用的内存泄漏,为定位.net应用内存问题提供一个解决途径。 阅读全文

posted @ 2008-09-05 15:15 eaglet 阅读(32850) 评论(24) 推荐(12)

2008年8月15日

摘要: 今天在博问中看到一个动物叫三声的设计模式讨论,觉得很有意思,抽空实现了一下,觉得有必要写下来,和大家一起探讨探讨。 阅读全文

posted @ 2008-08-15 09:41 eaglet 阅读(3395) 评论(15) 推荐(0)

2008年7月9日

摘要: 最近我的博客中有两位网友在使用 KTDictSeg 1.3 + lucene.net 2.0 + HighLight.net 2.0 是出现问题,高度怀疑是HighLight.net 2.0 版本的Bug, 今天腾出时间把几个组件的源码全部下下来,调试了一把,终于找到了这个Bug,下面把Bug的具体原因和修改后的源码发上来,供大家参考。另外哪位网友 知道如何向 lucene apache 组织 申报Bug,麻烦告知一声,以便我将这个Bug提交给该组织,让它的后续版本可以改进这个错误。 阅读全文

posted @ 2008-07-09 09:22 eaglet 阅读(2536) 评论(11) 推荐(0)

2008年7月7日

摘要: HighLight.net 是Lucene.net 带的一个开源高亮显示的组件,这个组件 2.0 版本以上的源码在网上很难找到,而这个组件 感觉又存在一些bug,遇到问题想调试一下,又没有源码,实在让人抓狂。 今天用最土的方法,一个一个文件下载,总是把这个版本的源码给凑齐了,编译了一下,没有问题,发上来,方便大家调试, 大家如果发现这里面有什么bug,还望多多分享。 阅读全文

posted @ 2008-07-07 11:10 eaglet 阅读(2946) 评论(19) 推荐(0)

2008年7月3日

摘要: 目前互联网上关于Lucene 及 Lucene.net 的文章很多,看了一些,感觉绝大部分还是偏向于应用,真正深入探讨其核心算法的文章不是太多,最近打算深入研究一下Lucene.net,把一些关键技术点的核心算法搞清楚。在开始做这个工作之前,先对目前互联网上可以利用的资源做个汇总,算是抛砖引玉吧,还望网友们多来补充,大家共同学习! 阅读全文

posted @ 2008-07-03 21:29 eaglet 阅读(4566) 评论(14) 推荐(0)

2008年6月13日

摘要: 今天对 .net 2.0 的 System.Runtime.Remoting.Channels.Ipc 做了一个相同的测试,测试结果是每秒传输速度为 33MB。 由于底层技术都是一样的,我估计其比我这个例子(180MB每秒)慢的主要原因应该是在序列化上。另外今天对我这个例子进行了一些补充,增加了对流方式的支持,并做了一个通过流方式传输文件的例子。 阅读全文

posted @ 2008-06-13 13:43 eaglet 阅读(2413) 评论(9) 推荐(0)

2008年6月12日

摘要: 用Remoting做进程间通讯,效率较低,于是做了一个采用管道技术进行进程间通讯的例子,在1.8G 双核计算机上每秒钟可以发送180M数据。 阅读全文

posted @ 2008-06-12 15:40 eaglet 阅读(3385) 评论(21) 推荐(0)

2008年5月29日

摘要: 公布1.3版本的所有改动和下载位置 阅读全文

posted @ 2008-05-29 08:27 eaglet 阅读(12733) 评论(130) 推荐(1)

2008年5月28日

摘要: 中文姓名识别和未登录词识别是中文分词中的难点,具体为什么是难点,很多文章都有叙述,这里不再多讲。主要介绍一下 1.3版本是如何对中文姓名和未登录词进行识别的。 阅读全文

posted @ 2008-05-28 15:18 eaglet 阅读(3390) 评论(12) 推荐(0)

2008年5月27日

摘要: KTDictSeg 分词组件1.3版本已经接近完成,只剩下最后的一点功能。在KTDictSeg 分词组件1.3版本的开发过程中,得到了很多朋友的关注和支持,特别是一些分词方面的专家提出了很多很好的意见,也对我的分词算法给出了很多中肯的建议,在此向他们表示由衷的感谢。1.3版本的预分词算法还是沿用了之前版本的变相的最大匹配算法,这个算法有着本质的缺陷,未来的2.0版本可能会使用目前比较先进的算法替代这个过时的算法。 1.3版本在预分词中增加了对英文专业词汇的支持,比如C++,C#原来无法被分出来,现在只要在词库中有就可以分出来。在预分词中1.3版本还增加了对词频的判断。在预分词后,1.3版本对中文姓名匹配,未登录词识别等进行了一些改进。另外1.3版本还增加了对lucene.net的支持以及字典管理功能。之前很多朋友建议将ArrayList全部改成了List,非常好的建议,1.3版本将原来代码中所有的ArrayList全部改成了List. 从今天开始,我打算逐步公布新版本中的一些主要算法,供朋友们参考,由于我水平有限,很多算法难尽如人意,有不对的地方还望指正。 b 阅读全文

posted @ 2008-05-27 15:07 eaglet 阅读(3943) 评论(32) 推荐(0)