﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>博客园-First we try, then we trust</title><link>http://www.cnblogs.com/zhenyulu/</link><description /><language>zh-cn</language><lastBuildDate>Wed, 10 Feb 2010 08:22:52 GMT</lastBuildDate><pubDate>Wed, 10 Feb 2010 08:22:52 GMT</pubDate><ttl>60</ttl><item><title>SharpICTCLAS 1.0 发布!</title><link>http://www.cnblogs.com/zhenyulu/archive/2007/04/18/718383.html</link><dc:creator>吕震宇</dc:creator><author>吕震宇</author><pubDate>Wed, 18 Apr 2007 07:52:00 GMT</pubDate><guid>http://www.cnblogs.com/zhenyulu/archive/2007/04/18/718383.html</guid><description><![CDATA[<p>阅读: 11672 评论: 79 作者: <a href="http://www.cnblogs.com/zhenyulu/" target="_blank">吕震宇</a> 发表于 2007-04-18 15:52 <a href="http://www.cnblogs.com/zhenyulu/archive/2007/04/18/718383.html" target="_blank">原文链接</a></p><p><font color=#ff0000>SharpICTCLAS 1.0 发布 （感谢<a href="http://www.gk-z.com/" target=_blank>工控网</a>发现了一个问题，问题出在字符串比较上，目前已经修正，请重新下载。2007年4月20日）</font></p>
<ul>
    <li><a href="http://www.cnblogs.com/Files/zhenyulu/SharpICTCLAS分词系统_1.0.rar">下载 SharpICTCLAS 1.0</a> </li>
</ul>
<p>　</p>
<h3>一、SharpICTCLAS 1.0 版相对于测试版的改进</h3>
<p>1、修改了原子分词代码，使得对于全角字母有较好的识别</p>
<p>2、修改了部分词性标注部分的代码</p>
<p>因为词性标注部分的代码存在问题（应当是从ICTCLAS就存在的问题），主要表现在如果某个汉字没有词性，则在词性标注时会出现异常。例如：&#8220;这些是永远也没有现成的答桉的&#8221;其中&#8220;答案&#8221;写错了，当对这个有错别字的句子分词时，&#8220;桉&#8221;字是没有词性的，程序在此时将出现错误。</p>
<p>目前的解决办法是对于这些没有词性的词在最终标注时标注为&#8220;字符串&#8221;。</p>
<p>2、修改了地名识别的一些问题</p>
<p>这个问题出现在Span类的PlaceRecognize方法中，nStart与nEnd在某些时候会计算错误。在测试版SharpICTCLAS中，句子&#8220;明定陵是明十三陵中第十座陵墓&#8221;在分词时会因为这个问题导致异常。 </p>
<p>3、修改了基于CCID的字符串比较代码</p>
<p>原有代码没有很好考虑对全角、半角混合字符串的比较问题，现在修正过来了。</p>
<p>4、修改了向词库添加词汇的代码</p>
<p>原有代码存在错误，现在改正了过来。</p>
<h3>二、仍然有待改进的地方</h3>
<p>现在的程序仍然有很多地方有待改进，例如原子分词部分的代码对电子邮件、URL等识别还不是很好，日后可利用正则表达式加以改进；除此之外，对于词性标注以及人名地名识别部分代码 ，我除了修改了部分问题代码外，没有做任何改进和调整，这使得整个代码显得凌乱，有待做一次全面重构。</p>
<h3>三、SharpICTCLAS使用时的一些示例代码</h3>
<p>为了能够更好的使用SharpICTCLAS，现提供一些示例代码，主要完成的工作包括：1）向词库中添加新词汇；2）对文件的预处理，实现繁体向简体的转换、全角字符向半角字符的转换、利用正则表达式过滤多余HTML标记以及断句等。具体可以访问我的文章《<a href="http://www.cnblogs.com/zhenyulu/articles/718375.html">SharpICTCLAS分词系统简介(9)词库扩充</a>》。</p>
<p>目前经过调整后的SharpICTCLAS运行效果还算不错。在对博客园一万五千篇文章进行分词测试过程中，向词库中添加了一千三百多个词汇然后进行分词，效果还不错， 分词异常一共发生了15次，其中有9处是因为存在大量日文字符，另外6处是一句话中单词过多，超出了软件限制（200词）。分词效率也比较令人满意（尽管总体还是比较慢），15000篇文章总用时2.5小时，但这不只是分词的时间，还包括了繁体转简体、利用正则表达式去掉HTML符号，统计词频（这需要进行重复词的判别，我使用了AVL树 ，共统计得到16万词汇）、将分词结果写入SQL Server 2005数据库。如果不考虑这些因素的话，感觉应当和C＋＋程序效率差不多，当然这是没有经过严格测试的结论。</p>
<p>如果大家在使用时发现什么新问题，还请及时告知，我会继续修正这些问题。</p>
<p>　</p>
<hr align=left width=400>
<p>　</p>
<ul>
    <li><font color=#800080><strong>ICTCLAS简介：</strong></font> </li>
</ul>
<p>计算所汉语词法分析系统ICTCLAS（Institute of Computing Technology, Chinese Lexical Analysis System），功能有：中文分词；词性标注；未登录词识别。分词正确率高达97.58%(973专家评测结果)，未登录词识别召回率均高于90%，其中中国人名的识别召回率接近98%;处理速度为31.5Kbytes/s。</p>
<p>著作权： Copyright(c)2002-2005中科院计算所 职务著作权人：张华平</p>
<p>遵循协议：自然语言处理开放资源许可证1.0</p>
<p>Email: <a href="&#109;&#97;&#105;&#108;&#116;&#111;&#58;&#122;&#104;&#97;&#110;&#103;&#104;&#112;&#64;&#115;&#111;&#102;&#116;&#119;&#97;&#114;&#101;&#46;&#105;&#99;&#116;&#46;&#97;&#99;&#46;&#99;&#110;">zhanghp@software.ict.ac.cn</a></p>
<p>Homepage: <a href="http://www.i3s.ac.cn/">http://www.i3s.ac.cn</a></p>
<p>　</p>
<ul>
    <li><strong><font color=#800080>SharpICTCLAS：</font></strong> </li>
</ul>
<p>.net平台下的ICTCLAS，是由河北理工大学经管学院吕震宇根据Free版ICTCLAS改编而成，并对原有代码做了部分重写与调整。</p>
<p>Email: <a href="&#109;&#97;&#105;&#108;&#116;&#111;&#58;&#122;&#104;&#101;&#110;&#121;&#117;&#108;&#117;&#64;&#49;&#54;&#51;&#46;&#99;&#111;&#109;">zhenyulu@163.com</a></p>
<p>Blog: <a href="http://www.cnblogs.com/zhenyulu">http://www.cnblogs.com/zhenyulu</a></p>
<p>　</p>
<img src="http://www.cnblogs.com/zhenyulu/aggbug/718383.html?type=1" width="1" height="1" alt=""/><p>评论: 79　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/04/18/718383.html#pagedcomment" target="_blank">查看评论</a>　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/04/18/718383.html#commentform" target="_blank">发表评论</a></p><hr/><p>最新新闻：<br/>· <a href="http://news.cnblogs.com/n/56855/" target="_blank">NDepend 3.0已与Visual Studio集成</a><span style="color:gray">(2010-02-10 16:17)</span><br/>· <a href="http://news.cnblogs.com/n/56854/" target="_blank">Ruby in Steel 1.5发布，去除IronRuby支持</a><span style="color:gray">(2010-02-10 16:14)</span><br/>· <a href="http://news.cnblogs.com/n/56852/" target="_blank">淘宝网通过索引模式涉足网络文学</a><span style="color:gray">(2010-02-10 15:59)</span><br/>· <a href="http://news.cnblogs.com/n/56851/" target="_blank">苹果发布 iPhone/iPad SDK 3.2 beta2 开发包</a><span style="color:gray">(2010-02-10 15:37)</span><br/>· <a href="http://news.cnblogs.com/n/56850/" target="_blank">“谷姐”：披着“谷歌”羊皮的悲哀？</a><span style="color:gray">(2010-02-10 15:32)</span><br/></p><p>编辑推荐：<a href="http://news.cnblogs.com/news/tag/Buzz/" target="_blank">Google Buzz相关新闻</a><br/></p><p>网站导航：<a href="http://www.cnblogs.com" target="_blank">博客园首页</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/" target="_blank">个人主页</a>&nbsp;&nbsp;<a href="http://news.cnblogs.com" target="_blank">新闻</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/ing/" target="_blank">闪存</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/group/" target="_blank">小组</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com/q/" target="_blank">博问</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com" target="_blank">社区</a>&nbsp;&nbsp;<a href="http://kb.cnblogs.com" target="_blank">知识库</a></p>]]></description></item><item><title>SharpICTCLAS（测试版）发布了</title><link>http://www.cnblogs.com/zhenyulu/archive/2007/03/15/675756.html</link><dc:creator>吕震宇</dc:creator><author>吕震宇</author><pubDate>Thu, 15 Mar 2007 04:52:00 GMT</pubDate><guid>http://www.cnblogs.com/zhenyulu/archive/2007/03/15/675756.html</guid><description><![CDATA[<p>阅读: 16160 评论: 41 作者: <a href="http://www.cnblogs.com/zhenyulu/" target="_blank">吕震宇</a> 发表于 2007-03-15 12:52 <a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/15/675756.html" target="_blank">原文链接</a></p><p><font color=#ff0000>SharpICTCLAS（测试版）发布了！</font></p>
<ul>
    <li><a href="http://www.cnblogs.com/Files/zhenyulu/SharpICTCLAS分词系统（测试版）.rar">下载SharpICTCLAS（测试版）</a> </li>
</ul>
<p>　</p>
<p>本版本尚未经过大规模分词测试，存在问题在所难免，如果有什么问题可以将出现问题的句子贴出来，我会尽快改进并发布新的版本。</p>
<p>　</p>
<ul>
    <li><font color=#800080><strong>ICTCLAS简介：</strong></font> </li>
</ul>
<p>计算所汉语词法分析系统ICTCLAS（Institute of Computing Technology, Chinese Lexical Analysis System），功能有：中文分词；词性标注；未登录词识别。分词正确率高达97.58%(973专家评测结果)，未登录词识别召回率均高于90%，其中中国人名的识别召回率接近98%;处理速度为31.5Kbytes/s。</p>
<p>著作权： Copyright(c)2002-2005中科院计算所 职务著作权人：张华平</p>
<p>遵循协议：自然语言处理开放资源许可证1.0</p>
<p>Email: <a href="mailto:zhanghp@software.ict.ac.cn">zhanghp@software.ict.ac.cn</a></p>
<p>Homepage: <a href="http://www.i3s.ac.cn/">http://www.i3s.ac.cn</a></p>
<p>　</p>
<ul>
    <li><strong><font color=#800080>SharpICTCLAS：</font></strong> </li>
</ul>
<p>.net平台下的ICTCLAS，是由河北理工大学经管学院吕震宇根据Free版ICTCLAS改编而成，并对原有代码做了部分重写与调整。</p>
<p>Email: <a href="mailto:zhenyulu@163.com">zhenyulu@163.com</a></p>
<p>Blog: <a href="http://www.cnblogs.com/zhenyulu">http://www.cnblogs.com/zhenyulu</a></p>
<p>　</p>
<img src="http://www.cnblogs.com/zhenyulu/aggbug/675756.html?type=1" width="1" height="1" alt=""/><p>评论: 41　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/15/675756.html#pagedcomment" target="_blank">查看评论</a>　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/15/675756.html#commentform" target="_blank">发表评论</a></p><hr/><p>最新新闻：<br/>· <a href="http://news.cnblogs.com/n/56855/" target="_blank">NDepend 3.0已与Visual Studio集成</a><span style="color:gray">(2010-02-10 16:17)</span><br/>· <a href="http://news.cnblogs.com/n/56854/" target="_blank">Ruby in Steel 1.5发布，去除IronRuby支持</a><span style="color:gray">(2010-02-10 16:14)</span><br/>· <a href="http://news.cnblogs.com/n/56852/" target="_blank">淘宝网通过索引模式涉足网络文学</a><span style="color:gray">(2010-02-10 15:59)</span><br/>· <a href="http://news.cnblogs.com/n/56851/" target="_blank">苹果发布 iPhone/iPad SDK 3.2 beta2 开发包</a><span style="color:gray">(2010-02-10 15:37)</span><br/>· <a href="http://news.cnblogs.com/n/56850/" target="_blank">“谷姐”：披着“谷歌”羊皮的悲哀？</a><span style="color:gray">(2010-02-10 15:32)</span><br/></p><p>编辑推荐：<a href="http://news.cnblogs.com/news/tag/Buzz/" target="_blank">Google Buzz相关新闻</a><br/></p><p>网站导航：<a href="http://www.cnblogs.com" target="_blank">博客园首页</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/" target="_blank">个人主页</a>&nbsp;&nbsp;<a href="http://news.cnblogs.com" target="_blank">新闻</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/ing/" target="_blank">闪存</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/group/" target="_blank">小组</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com/q/" target="_blank">博问</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com" target="_blank">社区</a>&nbsp;&nbsp;<a href="http://kb.cnblogs.com" target="_blank">知识库</a></p>]]></description></item><item><title>SharpICTCLAS分词系统简介(7)(8)</title><link>http://www.cnblogs.com/zhenyulu/archive/2007/03/14/675224.html</link><dc:creator>吕震宇</dc:creator><author>吕震宇</author><pubDate>Wed, 14 Mar 2007 15:19:00 GMT</pubDate><guid>http://www.cnblogs.com/zhenyulu/archive/2007/03/14/675224.html</guid><description><![CDATA[<p>阅读: 4752 评论: 6 作者: <a href="http://www.cnblogs.com/zhenyulu/" target="_blank">吕震宇</a> 发表于 2007-03-14 23:19 <a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/14/675224.html" target="_blank">原文链接</a></p><p>具体内容请访问我的文章：</p>
<p>《<a href="http://www.cnblogs.com/zhenyulu/articles/675217.html">SharpICTCLAS分词系统简介(7)OptimumSegment</a>》</p>
<p>《<a href="http://www.cnblogs.com/zhenyulu/articles/675218.html">SharpICTCLAS分词系统简介(8)其它</a>》</p>
<p>===全文完===</p>
<p><font color=#ff0000>非常高兴在这最后一篇文章写完之时得到了张华平老师的授权。我会尽可能快的将SharpICTCLAS源文件放上来供大家测试使用的。</font></p>
<img src="http://www.cnblogs.com/zhenyulu/aggbug/675224.html?type=1" width="1" height="1" alt=""/><p>评论: 6　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/14/675224.html#pagedcomment" target="_blank">查看评论</a>　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/14/675224.html#commentform" target="_blank">发表评论</a></p><hr/><p>最新新闻：<br/>· <a href="http://news.cnblogs.com/n/56855/" target="_blank">NDepend 3.0已与Visual Studio集成</a><span style="color:gray">(2010-02-10 16:17)</span><br/>· <a href="http://news.cnblogs.com/n/56854/" target="_blank">Ruby in Steel 1.5发布，去除IronRuby支持</a><span style="color:gray">(2010-02-10 16:14)</span><br/>· <a href="http://news.cnblogs.com/n/56852/" target="_blank">淘宝网通过索引模式涉足网络文学</a><span style="color:gray">(2010-02-10 15:59)</span><br/>· <a href="http://news.cnblogs.com/n/56851/" target="_blank">苹果发布 iPhone/iPad SDK 3.2 beta2 开发包</a><span style="color:gray">(2010-02-10 15:37)</span><br/>· <a href="http://news.cnblogs.com/n/56850/" target="_blank">“谷姐”：披着“谷歌”羊皮的悲哀？</a><span style="color:gray">(2010-02-10 15:32)</span><br/></p><p>编辑推荐：<a href="http://news.cnblogs.com/news/tag/Buzz/" target="_blank">Google Buzz相关新闻</a><br/></p><p>网站导航：<a href="http://www.cnblogs.com" target="_blank">博客园首页</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/" target="_blank">个人主页</a>&nbsp;&nbsp;<a href="http://news.cnblogs.com" target="_blank">新闻</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/ing/" target="_blank">闪存</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/group/" target="_blank">小组</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com/q/" target="_blank">博问</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com" target="_blank">社区</a>&nbsp;&nbsp;<a href="http://kb.cnblogs.com" target="_blank">知识库</a></p>]]></description></item><item><title>SharpICTCLAS分词系统简介(6)Segment</title><link>http://www.cnblogs.com/zhenyulu/archive/2007/03/13/673667.html</link><dc:creator>吕震宇</dc:creator><author>吕震宇</author><pubDate>Tue, 13 Mar 2007 14:38:00 GMT</pubDate><guid>http://www.cnblogs.com/zhenyulu/archive/2007/03/13/673667.html</guid><description><![CDATA[<p>阅读: 4134 评论: 1 作者: <a href="http://www.cnblogs.com/zhenyulu/" target="_blank">吕震宇</a> 发表于 2007-03-13 22:38 <a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/13/673667.html" target="_blank">原文链接</a></p><p>具体内容请访问我的文章</p>
<p>《<a href="http://www.cnblogs.com/zhenyulu/articles/673650.html">SharpICTCLAS分词系统简介(6)Segment</a> 》</p>
<img src="http://www.cnblogs.com/zhenyulu/aggbug/673667.html?type=1" width="1" height="1" alt=""/><p>评论: 1　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/13/673667.html#pagedcomment" target="_blank">查看评论</a>　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/13/673667.html#commentform" target="_blank">发表评论</a></p><hr/><p>最新新闻：<br/>· <a href="http://news.cnblogs.com/n/56855/" target="_blank">NDepend 3.0已与Visual Studio集成</a><span style="color:gray">(2010-02-10 16:17)</span><br/>· <a href="http://news.cnblogs.com/n/56854/" target="_blank">Ruby in Steel 1.5发布，去除IronRuby支持</a><span style="color:gray">(2010-02-10 16:14)</span><br/>· <a href="http://news.cnblogs.com/n/56852/" target="_blank">淘宝网通过索引模式涉足网络文学</a><span style="color:gray">(2010-02-10 15:59)</span><br/>· <a href="http://news.cnblogs.com/n/56851/" target="_blank">苹果发布 iPhone/iPad SDK 3.2 beta2 开发包</a><span style="color:gray">(2010-02-10 15:37)</span><br/>· <a href="http://news.cnblogs.com/n/56850/" target="_blank">“谷姐”：披着“谷歌”羊皮的悲哀？</a><span style="color:gray">(2010-02-10 15:32)</span><br/></p><p>编辑推荐：<a href="http://news.cnblogs.com/news/tag/Buzz/" target="_blank">Google Buzz相关新闻</a><br/></p><p>网站导航：<a href="http://www.cnblogs.com" target="_blank">博客园首页</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/" target="_blank">个人主页</a>&nbsp;&nbsp;<a href="http://news.cnblogs.com" target="_blank">新闻</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/ing/" target="_blank">闪存</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/group/" target="_blank">小组</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com/q/" target="_blank">博问</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com" target="_blank">社区</a>&nbsp;&nbsp;<a href="http://kb.cnblogs.com" target="_blank">知识库</a></p>]]></description></item><item><title>SharpICTCLAS分词系统简介(5)NShortPath-2</title><link>http://www.cnblogs.com/zhenyulu/archive/2007/03/12/672444.html</link><dc:creator>吕震宇</dc:creator><author>吕震宇</author><pubDate>Mon, 12 Mar 2007 14:44:00 GMT</pubDate><guid>http://www.cnblogs.com/zhenyulu/archive/2007/03/12/672444.html</guid><description><![CDATA[<p>阅读: 4472 评论: 3 作者: <a href="http://www.cnblogs.com/zhenyulu/" target="_blank">吕震宇</a> 发表于 2007-03-12 22:44 <a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/12/672444.html" target="_blank">原文链接</a></p> <p>具体内容请访问我的文章</p>
<p>《<a href="http://www.cnblogs.com/zhenyulu/articles/672442.html">SharpICTCLAS分词系统简介(5)NShortPath-2</a> 》</p><img src="http://www.cnblogs.com/zhenyulu/aggbug/672444.html?type=1" width="1" height="1" alt=""/><p>评论: 3　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/12/672444.html#pagedcomment" target="_blank">查看评论</a>　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/12/672444.html#commentform" target="_blank">发表评论</a></p><hr/><p>最新新闻：<br/>· <a href="http://news.cnblogs.com/n/56855/" target="_blank">NDepend 3.0已与Visual Studio集成</a><span style="color:gray">(2010-02-10 16:17)</span><br/>· <a href="http://news.cnblogs.com/n/56854/" target="_blank">Ruby in Steel 1.5发布，去除IronRuby支持</a><span style="color:gray">(2010-02-10 16:14)</span><br/>· <a href="http://news.cnblogs.com/n/56852/" target="_blank">淘宝网通过索引模式涉足网络文学</a><span style="color:gray">(2010-02-10 15:59)</span><br/>· <a href="http://news.cnblogs.com/n/56851/" target="_blank">苹果发布 iPhone/iPad SDK 3.2 beta2 开发包</a><span style="color:gray">(2010-02-10 15:37)</span><br/>· <a href="http://news.cnblogs.com/n/56850/" target="_blank">“谷姐”：披着“谷歌”羊皮的悲哀？</a><span style="color:gray">(2010-02-10 15:32)</span><br/></p><p>编辑推荐：<a href="http://news.cnblogs.com/news/tag/Buzz/" target="_blank">Google Buzz相关新闻</a><br/></p><p>网站导航：<a href="http://www.cnblogs.com" target="_blank">博客园首页</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/" target="_blank">个人主页</a>&nbsp;&nbsp;<a href="http://news.cnblogs.com" target="_blank">新闻</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/ing/" target="_blank">闪存</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/group/" target="_blank">小组</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com/q/" target="_blank">博问</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com" target="_blank">社区</a>&nbsp;&nbsp;<a href="http://kb.cnblogs.com" target="_blank">知识库</a></p>]]></description></item><item><title>SharpICTCLAS分词系统简介(4)NShortPath-1 </title><link>http://www.cnblogs.com/zhenyulu/archive/2007/03/09/669801.html</link><dc:creator>吕震宇</dc:creator><author>吕震宇</author><pubDate>Fri, 09 Mar 2007 14:51:00 GMT</pubDate><guid>http://www.cnblogs.com/zhenyulu/archive/2007/03/09/669801.html</guid><description><![CDATA[<p>阅读: 4613 评论: 1 作者: <a href="http://www.cnblogs.com/zhenyulu/" target="_blank">吕震宇</a> 发表于 2007-03-09 22:51 <a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/09/669801.html" target="_blank">原文链接</a></p><p>具体内容请访问我的文章</p>
<p>《<a href="http://www.cnblogs.com/zhenyulu/articles/669795.html">SharpICTCLAS分词系统简介(4)NShortPath-1</a> 》</p>
<img src="http://www.cnblogs.com/zhenyulu/aggbug/669801.html?type=1" width="1" height="1" alt=""/><p>评论: 1　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/09/669801.html#pagedcomment" target="_blank">查看评论</a>　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/09/669801.html#commentform" target="_blank">发表评论</a></p><hr/><p>最新新闻：<br/>· <a href="http://news.cnblogs.com/n/56855/" target="_blank">NDepend 3.0已与Visual Studio集成</a><span style="color:gray">(2010-02-10 16:17)</span><br/>· <a href="http://news.cnblogs.com/n/56854/" target="_blank">Ruby in Steel 1.5发布，去除IronRuby支持</a><span style="color:gray">(2010-02-10 16:14)</span><br/>· <a href="http://news.cnblogs.com/n/56852/" target="_blank">淘宝网通过索引模式涉足网络文学</a><span style="color:gray">(2010-02-10 15:59)</span><br/>· <a href="http://news.cnblogs.com/n/56851/" target="_blank">苹果发布 iPhone/iPad SDK 3.2 beta2 开发包</a><span style="color:gray">(2010-02-10 15:37)</span><br/>· <a href="http://news.cnblogs.com/n/56850/" target="_blank">“谷姐”：披着“谷歌”羊皮的悲哀？</a><span style="color:gray">(2010-02-10 15:32)</span><br/></p><p>编辑推荐：<a href="http://news.cnblogs.com/news/tag/Buzz/" target="_blank">Google Buzz相关新闻</a><br/></p><p>网站导航：<a href="http://www.cnblogs.com" target="_blank">博客园首页</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/" target="_blank">个人主页</a>&nbsp;&nbsp;<a href="http://news.cnblogs.com" target="_blank">新闻</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/ing/" target="_blank">闪存</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/group/" target="_blank">小组</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com/q/" target="_blank">博问</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com" target="_blank">社区</a>&nbsp;&nbsp;<a href="http://kb.cnblogs.com" target="_blank">知识库</a></p>]]></description></item><item><title>SharpICTCLAS分词系统简介(3)DynamicArray</title><link>http://www.cnblogs.com/zhenyulu/archive/2007/03/09/668843.html</link><dc:creator>吕震宇</dc:creator><author>吕震宇</author><pubDate>Fri, 09 Mar 2007 01:02:00 GMT</pubDate><guid>http://www.cnblogs.com/zhenyulu/archive/2007/03/09/668843.html</guid><description><![CDATA[<p>阅读: 4566 评论: 0 作者: <a href="http://www.cnblogs.com/zhenyulu/" target="_blank">吕震宇</a> 发表于 2007-03-09 09:02 <a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/09/668843.html" target="_blank">原文链接</a></p><p>具体内容请访问我的文章</p>
<p>《<a href="http://www.cnblogs.com/zhenyulu/articles/668695.html">SharpICTCLAS分词系统简介(3)DynamicArray</a>》</p>
<img src="http://www.cnblogs.com/zhenyulu/aggbug/668843.html?type=1" width="1" height="1" alt=""/><p>评论: 0　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/09/668843.html#pagedcomment" target="_blank">查看评论</a>　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/09/668843.html#commentform" target="_blank">发表评论</a></p><hr/><p>最新新闻：<br/>· <a href="http://news.cnblogs.com/n/56855/" target="_blank">NDepend 3.0已与Visual Studio集成</a><span style="color:gray">(2010-02-10 16:17)</span><br/>· <a href="http://news.cnblogs.com/n/56854/" target="_blank">Ruby in Steel 1.5发布，去除IronRuby支持</a><span style="color:gray">(2010-02-10 16:14)</span><br/>· <a href="http://news.cnblogs.com/n/56852/" target="_blank">淘宝网通过索引模式涉足网络文学</a><span style="color:gray">(2010-02-10 15:59)</span><br/>· <a href="http://news.cnblogs.com/n/56851/" target="_blank">苹果发布 iPhone/iPad SDK 3.2 beta2 开发包</a><span style="color:gray">(2010-02-10 15:37)</span><br/>· <a href="http://news.cnblogs.com/n/56850/" target="_blank">“谷姐”：披着“谷歌”羊皮的悲哀？</a><span style="color:gray">(2010-02-10 15:32)</span><br/></p><p>编辑推荐：<a href="http://news.cnblogs.com/news/tag/Buzz/" target="_blank">Google Buzz相关新闻</a><br/></p><p>网站导航：<a href="http://www.cnblogs.com" target="_blank">博客园首页</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/" target="_blank">个人主页</a>&nbsp;&nbsp;<a href="http://news.cnblogs.com" target="_blank">新闻</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/ing/" target="_blank">闪存</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/group/" target="_blank">小组</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com/q/" target="_blank">博问</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com" target="_blank">社区</a>&nbsp;&nbsp;<a href="http://kb.cnblogs.com" target="_blank">知识库</a></p>]]></description></item><item><title>SharpICTCLAS分词系统简介(1)、(2)</title><link>http://www.cnblogs.com/zhenyulu/archive/2007/03/08/668046.html</link><dc:creator>吕震宇</dc:creator><author>吕震宇</author><pubDate>Thu, 08 Mar 2007 06:36:00 GMT</pubDate><guid>http://www.cnblogs.com/zhenyulu/archive/2007/03/08/668046.html</guid><description><![CDATA[<p>阅读: 5099 评论: 2 作者: <a href="http://www.cnblogs.com/zhenyulu/" target="_blank">吕震宇</a> 发表于 2007-03-08 14:36 <a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/08/668046.html" target="_blank">原文链接</a></p><p>具体内容请访问我的文章</p>
<p>《<a href="http://www.cnblogs.com/zhenyulu/articles/668024.html">SharpICTCLAS分词系统简介(1)读取词典库</a>》</p>
<p>《<a href="http://www.cnblogs.com/zhenyulu/articles/668035.html">SharpICTCLAS分词系统简介(2)初步分词</a>》</p><img src="http://www.cnblogs.com/zhenyulu/aggbug/668046.html?type=1" width="1" height="1" alt=""/><p>评论: 2　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/08/668046.html#pagedcomment" target="_blank">查看评论</a>　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/08/668046.html#commentform" target="_blank">发表评论</a></p><hr/><p>最新新闻：<br/>· <a href="http://news.cnblogs.com/n/56855/" target="_blank">NDepend 3.0已与Visual Studio集成</a><span style="color:gray">(2010-02-10 16:17)</span><br/>· <a href="http://news.cnblogs.com/n/56854/" target="_blank">Ruby in Steel 1.5发布，去除IronRuby支持</a><span style="color:gray">(2010-02-10 16:14)</span><br/>· <a href="http://news.cnblogs.com/n/56852/" target="_blank">淘宝网通过索引模式涉足网络文学</a><span style="color:gray">(2010-02-10 15:59)</span><br/>· <a href="http://news.cnblogs.com/n/56851/" target="_blank">苹果发布 iPhone/iPad SDK 3.2 beta2 开发包</a><span style="color:gray">(2010-02-10 15:37)</span><br/>· <a href="http://news.cnblogs.com/n/56850/" target="_blank">“谷姐”：披着“谷歌”羊皮的悲哀？</a><span style="color:gray">(2010-02-10 15:32)</span><br/></p><p>编辑推荐：<a href="http://news.cnblogs.com/news/tag/Buzz/" target="_blank">Google Buzz相关新闻</a><br/></p><p>网站导航：<a href="http://www.cnblogs.com" target="_blank">博客园首页</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/" target="_blank">个人主页</a>&nbsp;&nbsp;<a href="http://news.cnblogs.com" target="_blank">新闻</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/ing/" target="_blank">闪存</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/group/" target="_blank">小组</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com/q/" target="_blank">博问</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com" target="_blank">社区</a>&nbsp;&nbsp;<a href="http://kb.cnblogs.com" target="_blank">知识库</a></p>]]></description></item><item><title>实现ICTCLAS到C#平台的移植</title><link>http://www.cnblogs.com/zhenyulu/archive/2007/03/07/667378.html</link><dc:creator>吕震宇</dc:creator><author>吕震宇</author><pubDate>Wed, 07 Mar 2007 14:45:00 GMT</pubDate><guid>http://www.cnblogs.com/zhenyulu/archive/2007/03/07/667378.html</guid><description><![CDATA[<p>阅读: 5006 评论: 9 作者: <a href="http://www.cnblogs.com/zhenyulu/" target="_blank">吕震宇</a> 发表于 2007-03-07 22:45 <a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/07/667378.html" target="_blank">原文链接</a></p><p>在研究了一段时间中科院计算所张华平、刘群所开发的ICTCLAS分词系统（Free版）代码后，阅读了大量的相关资料，我开始着手将C++的ICTCLAS分词系统移植到.net平台下，并取得了较好的实验结果。这种移植并不容易，在研究了ICTCLAS分词理论的同时还要阅读C++代码实现，其中遇到了很多困惑、迷茫，也不得不重写了一小部分代码，我将在随后的文章中介绍具体实现。</p>
<p>目前除了最后的词性标注部分还没有完全完工外，其它部分已经接近尾声（包括初始切分、N最短路径、人名、地名的识别以及最终优化等）。</p>
<p>部分分词结果以及移植思路请访问我的文章：《<a href="http://www.cnblogs.com/zhenyulu/articles/667359.html">实现ICTCLAS到C#平台的移植</a>》</p>
<img src="http://www.cnblogs.com/zhenyulu/aggbug/667378.html?type=1" width="1" height="1" alt=""/><p>评论: 9　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/07/667378.html#pagedcomment" target="_blank">查看评论</a>　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/03/07/667378.html#commentform" target="_blank">发表评论</a></p><hr/><p>最新新闻：<br/>· <a href="http://news.cnblogs.com/n/56855/" target="_blank">NDepend 3.0已与Visual Studio集成</a><span style="color:gray">(2010-02-10 16:17)</span><br/>· <a href="http://news.cnblogs.com/n/56854/" target="_blank">Ruby in Steel 1.5发布，去除IronRuby支持</a><span style="color:gray">(2010-02-10 16:14)</span><br/>· <a href="http://news.cnblogs.com/n/56852/" target="_blank">淘宝网通过索引模式涉足网络文学</a><span style="color:gray">(2010-02-10 15:59)</span><br/>· <a href="http://news.cnblogs.com/n/56851/" target="_blank">苹果发布 iPhone/iPad SDK 3.2 beta2 开发包</a><span style="color:gray">(2010-02-10 15:37)</span><br/>· <a href="http://news.cnblogs.com/n/56850/" target="_blank">“谷姐”：披着“谷歌”羊皮的悲哀？</a><span style="color:gray">(2010-02-10 15:32)</span><br/></p><p>编辑推荐：<a href="http://news.cnblogs.com/news/tag/Buzz/" target="_blank">Google Buzz相关新闻</a><br/></p><p>网站导航：<a href="http://www.cnblogs.com" target="_blank">博客园首页</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/" target="_blank">个人主页</a>&nbsp;&nbsp;<a href="http://news.cnblogs.com" target="_blank">新闻</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/ing/" target="_blank">闪存</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/group/" target="_blank">小组</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com/q/" target="_blank">博问</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com" target="_blank">社区</a>&nbsp;&nbsp;<a href="http://kb.cnblogs.com" target="_blank">知识库</a></p>]]></description></item><item><title>天书般的ICTCLAS分词系统代码（二）</title><link>http://www.cnblogs.com/zhenyulu/archive/2007/02/26/657022.html</link><dc:creator>吕震宇</dc:creator><author>吕震宇</author><pubDate>Mon, 26 Feb 2007 05:34:00 GMT</pubDate><guid>http://www.cnblogs.com/zhenyulu/archive/2007/02/26/657022.html</guid><description><![CDATA[<p>阅读: 3519 评论: 4 作者: <a href="http://www.cnblogs.com/zhenyulu/" target="_blank">吕震宇</a> 发表于 2007-02-26 13:34 <a href="http://www.cnblogs.com/zhenyulu/archive/2007/02/26/657022.html" target="_blank">原文链接</a></p><p>上篇文章《<a href="http://www.cnblogs.com/zhenyulu/articles/653254.html">天书般的ICTCLAS分词系统代码（一）</a>》 说了说ICTCLAS分词系统有些代码让人无所适从，需要好一番努力才能弄明白究竟是怎么回事。尽管有很多人支持应当写简单、清晰的代码，但也有人持不同意见。主要集中在（1）如果效率高，代码复杂点也行； （2）只要注释写得好就行；（3）软件关键在思路（这我同意），就好像买了一台电脑，不管包装箱内的电脑本身怎么，一群人偏在死扣那个外面透明胶带帖歪了（这我坚决不同意，因为只有好思路出不来好电脑，好电脑还要性能稳定，即插即用的好硬件；另外天书般的代码不仅仅是透明胶带 贴歪的问题，他甚至可能意味着电脑中的绝缘胶带失效了...）。</p>
<p>这两天在抓紧学习ICTCLAS分词系统的思路的同时，也在消化学习它的代码实现，然而我看到的代码已经不仅仅是为了效率牺牲代码清晰度的问题了，我看到的是连作者都不知道自己真正想要做什么了......</p>
<p>更多内容请参考我的文章《<a href="http://www.cnblogs.com/zhenyulu/articles/657017.html">天书般的ICTCLAS分词系统代码（二）</a>》</p>
<img src="http://www.cnblogs.com/zhenyulu/aggbug/657022.html?type=1" width="1" height="1" alt=""/><p>评论: 4　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/02/26/657022.html#pagedcomment" target="_blank">查看评论</a>　<a href="http://www.cnblogs.com/zhenyulu/archive/2007/02/26/657022.html#commentform" target="_blank">发表评论</a></p><hr/><p>最新新闻：<br/>· <a href="http://news.cnblogs.com/n/56855/" target="_blank">NDepend 3.0已与Visual Studio集成</a><span style="color:gray">(2010-02-10 16:17)</span><br/>· <a href="http://news.cnblogs.com/n/56854/" target="_blank">Ruby in Steel 1.5发布，去除IronRuby支持</a><span style="color:gray">(2010-02-10 16:14)</span><br/>· <a href="http://news.cnblogs.com/n/56852/" target="_blank">淘宝网通过索引模式涉足网络文学</a><span style="color:gray">(2010-02-10 15:59)</span><br/>· <a href="http://news.cnblogs.com/n/56851/" target="_blank">苹果发布 iPhone/iPad SDK 3.2 beta2 开发包</a><span style="color:gray">(2010-02-10 15:37)</span><br/>· <a href="http://news.cnblogs.com/n/56850/" target="_blank">“谷姐”：披着“谷歌”羊皮的悲哀？</a><span style="color:gray">(2010-02-10 15:32)</span><br/></p><p>编辑推荐：<a href="http://news.cnblogs.com/news/tag/Buzz/" target="_blank">Google Buzz相关新闻</a><br/></p><p>网站导航：<a href="http://www.cnblogs.com" target="_blank">博客园首页</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/" target="_blank">个人主页</a>&nbsp;&nbsp;<a href="http://news.cnblogs.com" target="_blank">新闻</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/ing/" target="_blank">闪存</a>&nbsp;&nbsp;<a href="http://home.cnblogs.com/group/" target="_blank">小组</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com/q/" target="_blank">博问</a>&nbsp;&nbsp;<a href="http://space.cnblogs.com" target="_blank">社区</a>&nbsp;&nbsp;<a href="http://kb.cnblogs.com" target="_blank">知识库</a></p>]]></description></item></channel></rss>