2011年2月11日

imdict-chinese-analyzer .NET转写版

摘要: 中文切词领域,中科院开发的 ICTCLAS 占有重要一席,号称是世界上最好的中文分词系统。ICTCLAS 初期曾发布过一个免费版本(C++),采用“自然语言处理开放资源许可证”公开。后来走向商业开发道路,最新版本是 ICTCLAS 2010,提供有 C++, Java, C# 等多种版本可供购买。从 ICTCLAS Free 版有一些衍生版本:ictclas4j 是张新波(sinboy)移植的 Java 版本,SharpICTCLAS 是吕震宇移植的 C# 版本。这两个版本也采用“自然语言处理开放资源许可证”。20 阅读全文

posted @ 2011-02-11 05:04 破宝 阅读(1336) 评论(4) 推荐(1) 编辑

2011年2月10日

SQLite全文检索(2)

摘要: 距上一篇有好久了,因为乏人问津所以一直也没写这第二篇。年前看到有人给我发消息问 SQLite 全文检索的事,我想哪怕只有一个人看吧,我也整理整理。这一篇就写写如何扩展 SQLite 使它支持东亚文字的切词。熟悉 Lucene 的童鞋大概知道,切词是在索引时进行的。对 SQLite 来说,也就是 INSERT UPDATE 时发生切词。SQLite 的做法是,在定义 FTS 虚表时指定切词器:还记得“porter”吗?当然这里不是哈利波特,其实是指Martin Porter设计的切词算法。或许你在 Lucene 里见过,这个切词器主要用于英语词的整形(如复 阅读全文

posted @ 2011-02-10 07:33 破宝 阅读(4462) 评论(12) 推荐(6) 编辑

2010年8月18日

SQLite全文检索(1)

摘要: 说到全文检索,目前比较流行、也比较成熟的选择是 Lucene.net。今天给大家介绍的是 SQLite 内置的全文检索功能,以如此小的 footprint 实现全文检索功能,我想还是有一定吸引力的。国内目前涉及此领域的文章还很少,.net 圈估计本文是第一篇吧,能力有限,多多包涵。 阅读全文

posted @ 2010-08-18 19:52 破宝 阅读(7484) 评论(4) 推荐(4) 编辑

2009年12月24日

80块钱毁掉“猪八戒”的信誉

摘要: 简单列一列“猪八戒”的罪状: * “猪八戒”贪图区区80块钱的小利,就无视雇主、投标者双方的利益。 * 仅仅由于有人投诉,就做出作弊的裁断。丝毫不和当事人联系、以确认身份,仅凭投诉人一面之词就做出决定。 * 不仅事前没有联系当事人,事后也不主动通知,企图蒙混过关,昧掉80块钱。 * 违背雇主意愿,随意添加“入围”稿件。 * 以公司内部的规定为由,拒不给出所谓的作弊证据。 雇主和投标者双方的利益都得不到保障,谁还敢信任你们? “猪八戒”你要记住:好事不出门,坏事传千里!作恶一次,即使行善百次也是无法弥补的!丢了信誉,你的“威客”也就快玩完了。 阅读全文

posted @ 2009-12-24 08:27 破宝 阅读(1558) 评论(15) 推荐(2) 编辑

2009年6月15日

有点郁闷:MSDN文档中MidpointRounding.AwayFromZero的翻译错误

摘要: 很早就知道 Math.Round 方法实际上并不是我们上学时学到的“四舍五入”,而是 IEEE 标准定义的“银行家舍入”算法,通俗说法是“四舍六入五成双”(1.5→2, 4.5→4)。当需要用到“四舍五入”算法时,.NET 1.x 中是需要自己实现(比如一种思路:正数加0.5后Math.Floor,负数减0.5后Math.Ceiling)。.NET 2.0 开始,Math.Round 方法提供了一个枚举选项 MidpointRounding.AwayFromZero 可以用来实现传统意义上的“四舍五入”。即: Math.Round(4.5, MidpointRounding.AwayFrom. 阅读全文

posted @ 2009-06-15 11:53 破宝 阅读(1416) 评论(0) 推荐(0) 编辑

2009年2月20日

当 ASP.net Mobile Controls 碰到“中国特色”的 CMWAP / UNIWAP

摘要: 一直觉得 ASP.net Mobile Controls 很有用,它可以根据客户端的 UserAgent 自动判断客户端浏览器的能力,自动选择最适合的方式(WML 1.1,XHTML Basic, PC 用的 HTML, 日本 Docomo 和 Willcom 特有的 CHTML 等等)输出内容。 国内说起手机上网,一般称呼是说 WAP。其实目前市场中的很多手机早已不仅仅只支持 WML 1.1 这... 阅读全文

posted @ 2009-02-20 00:35 破宝 阅读(407) 评论(0) 推荐(0) 编辑

2008年9月24日

闲话“正版”:正版软件和盗版软件的区别到底是什么?

摘要: 接上篇继续说。 如果调查一个问题:正版 Windows 和盗版 Windows 的区别是什么?我觉得会有如下的回答: “正版的包装精良”“正版的光盘质量好,不容易坏”(这估计是普通老百姓的说法) “正版 Windows 有微软的正版贴签”(这估计是软件店促销MM的说法) “正版 Windows 不用担心激活的问题”(这估计是经常帮人装机的“高手”的说法) “盗版 Windows 是不是会有错别字啊... 阅读全文

posted @ 2008-09-24 08:22 破宝 阅读(2323) 评论(1) 推荐(0) 编辑

闲话“正版”:真是因为“缺钱”吗?

摘要: 最近有一条争议不小的新闻:微软(中国)在国庆节期间的促销活动,Office家庭版降价到199元。这让我想到了我三年多前的一篇博文,梦呓:微软在中国的新定价策略——比例折算法。这个价格可以说比“比例折算法”还要实惠。不过遗憾的是,网上投票情况显示,半数以上的网民对此促销活动并不买账,认为只要比盗版价格高就绝不买正版。这也如实反映了国民对“正版”的认识程度。很多人拒绝正版的理由是没钱。但另一方面却发现,大家对于硬件选择相当的“阔绰”“奢侈”,全部组件都要选择最高等级,CPU要市场上最快的,硬盘要转速高容量大的,要外加两三千的专业级独立显卡,再加杜比5.1的家庭影院,呵呵,无论自己的实际需求是否真的 阅读全文

posted @ 2008-09-24 07:00 破宝 阅读(237) 评论(0) 推荐(0) 编辑

2008年6月16日

又一个疑似Bug: XmlDataSource 控件的 Data 属性动态改变时,缓存不会自动失效

摘要: 最近似乎不太顺利,总是一钻进 Reflector 就 N 久时间找不到问题所在,一点一点琢磨那些可疑的、没有头绪的、没有注释的 BCL (.net 的基础类库)源代码,以确认到底是我错了,还是微软错了。 这不,又发现一个疑似bug,如标题所写。 XmlDataSource 控件一般是和 TreeView 组合使用的,如果是静态的 XML 数据是不会碰到什么问题的,但一变成动态数据,就总碰到一些怪异... 阅读全文

posted @ 2008-06-16 20:16 破宝 阅读(290) 评论(0) 推荐(0) 编辑

2008年6月10日

立此存照:System.Net.Mail 的 bug

摘要: 痛苦了debug了一个多钟头,后来终于在网络上找到了这篇“救星”文章:http://columns.chicken-house.net/blogs/chicken/archive/2007/04/06/system-net-mail-bug.aspx立此存照,如果您也碰到同样问题,希望能够能比我更幸运些,更早找到问题所在。症状是:调用 SmtpClient.Send 方法后,出现 System.FormatException,英文消息为“An invalid character was found in header value.”中文消息是:“邮件标头中找到无效字符”。原因是在 SmtpCl 阅读全文

posted @ 2008-06-10 18:25 破宝 阅读(294) 评论(0) 推荐(0) 编辑

导航