阁子 - 博客园

2010年12月18日

摘要：以前写了个关于MMSEG实现的，那个写的很烂，本身我也没有实现完全。最近在工作中对原有系统的分词进行了代码重构和算法优化。并且针对电子商务网站搜索的特征，给出对于离线没有识别出歧义的片段进行全切分，而且与IK的全切分不同，同时我们还要保证路径的完整，即我们不需要找到所有的路径，但是我们要确定所有的全切分可能路径出现的词都会被切出，而IK的切法只是给出所有有意义的词，并不考虑完整路径问题，比如 “中华人民” 按照IK的切法，“中华” “华人” “人民”，而我们希望的结果是“中华，中，华人，阅读全文

posted @ 2010-12-18 18:04 阁子阅读(1048) 评论(0) 推荐(0)

2010年12月13日

Non parametric density estimate and knn 非参数化概率密度估计与KNN

摘要：简介：主要参考<<introduction to statistical pattern recognation>>第六章，做简单笔记。 1. 参数化与非参数化参数化是指我们对于概率预先做出了分布形式假设，我们要做的只是估算参数值，比如我们假定是高斯分布，二项式分布等等。非参数化直接从观察数据估计概率密度，不依赖任何对分布形式的假设。 2. 如何非参数化估计？可以采用Parzen密度估计方法。可以采用KNN方法。区别是Parzen方法是固定v，不固定k,而KNN方法是固定k，不固定v。 3. 结论贝叶斯分类器是最小化分类误差的理论上的最优分类器参数化阅读全文

posted @ 2010-12-13 17:05 阁子阅读(1909) 评论(0) 推荐(0)

2010年12月12日

预测实数取值的(real-valued)输出:回归入门

摘要： 1. 简介：主要是Andrew W.Moore 的课件Predicting real-valued outputs: an introduction to regression学习笔记（逐步完成)。 2. 单一参数线性回归 single parameter linear regression 前面关于PRML第一章学习笔记中已经贴了该部分。注意最后的最优求解很简单，按照偏导数=0。对应最小... 阅读全文

posted @ 2010-12-12 11:23 阁子阅读(1229) 评论(0) 推荐(0)

2010年12月11日

PRML第一章学习总结最小二乘法数据拟合与回归

摘要： written by goldenlock 简介：本文主要对PRML一书的第一章总结，结合moore关于回归的课件Predicting real-valued outputs: an introduction to regression。什么是回归(regression)? 1. 单一参数线性回归如上图考虑用一条过原点的直线去拟合采样点，y=wx,那么未知参数w取什么值可以使得拟合最好的，即整体拟合误差最小，这是一个最小二乘法拟合问题。目标是使得(Xi-Yi)^2的总和最小。 2. 从概率的角度考虑上面的问题就是说我们假定模型是y=wx但是具体的(Xi,Yi)对应生成的时候按照高斯阅读全文

posted @ 2010-12-11 22:11 阁子阅读(5543) 评论(0) 推荐(1)

2010年11月30日

PY++ 自动将你的C++程序接口封装供python调用

摘要： written by pku_goldenlock at qq.com 引言：我喜欢C++的速度，我喜欢python的简洁，我相信只用C++，python就可以解决99.99%的问题，那么如何让它们交互呢，这里仅说明如何将C++的代码接口封装使得python可以调用c++。一个简单的应用我写了一个分词器，我希望能通过网页形式展示给别人，我觉得用django做这这件事情比用C++些XML更灵活方便。那么如何让python代码能够调用我的分词器呢？我在前面的文章介绍过boost.python使得C++中方便调用python,boost.python入门教程 ----python 嵌入c++ py 阅读全文

posted @ 2010-11-30 21:07 阁子阅读(24730) 评论(5) 推荐(3)

2010年9月24日

PRAML学习笔记-信息论

摘要： PRAML学习笔记-信息论概述对<<pattern recognition and machine learning>> 一书关于信息论简介的学习笔记, 对于一个随机变量x,它携带有多少信息量呢? 当我们观察到了x的一个特定值的时候，我们获得了多少信息量呢? 信息量可以表示为“惊讶度”(degree of surprise)。如果我们观察到了一个不常见的事情发生显然惊讶度高，获得信息量大,极端的如果我们知道一个事件百分百发生那么我们没有任何信息获得。我们考虑与概率分布p(x)相关联的h(x),表示观测到x值时的信息量，当我们认为x,y无关阅读全文

posted @ 2010-09-24 13:18 阁子阅读(2014) 评论(1) 推荐(0)

2010年9月11日

生成式和判别式分类器：朴素贝叶斯与逻辑回归

摘要： Tom M.Mitchell (译pku_goldenlock at qq.com) Abstract 对GENERATIVE AND DISCRIMINATIVE CLASSIFIERS:NAIVE BAYES AND LOGISTIC REGRESSION文章简单翻译(不完整to be finished or not:)请参考原文(很经典)，错误难免仅供自己记录。 1 基于贝叶斯规则的分类学习这里我们会考虑有监督学习(supervised learning),方程拟合(function approximation),以及贝叶斯推理的关系。考虑一个有监督学习问题，我们想逼近一个方程f:X 阅读全文

posted @ 2010-09-11 17:07 阁子阅读(10051) 评论(0) 推荐(0)

2010年8月9日

XAPIAN学习1--倒排数据(库）建立,工厂模式应用

摘要：一直想学习下C++开源引擎的源代码，比较了下xapian,lemur,firtex,最终还是决定从xapian开始，以后有时间再看下lemur。选择xapian是因为xapian的代码可读性更强，更接近现代C++风格，用户端代码很少需要直接和指针打交道而看了下lemur示例代码到处都是指针不太爽，呵呵，还是了解不多吧，总之从xapian开始吧。 xapian的索引建立 xapian提供多种不同的索引方式比如in memory, flnt格式的等待（具体没有仔细看)。在xapian中提供一个基类DataBase表示索引数据库，WriteableDataBase继承自DataBase. X 阅读全文

posted @ 2010-08-09 21:08 阁子阅读(2130) 评论(0) 推荐(0)

2010年7月4日

《搜索引擎-信息检索实践》7.2.1 分类应用与检索/BM25检索模型

摘要： 1.简介在所有的二元检索模型中，文档会被归为两类，相关文档和不相关文档。我们的任务是确定新来的文档是属于相关文档还是不相关文档。如何判断相关与否，我们认为新来的文档如果属于相关文档的概率大于不相关文档，则归于相关文档，否则属于不相关文档。 //所谓的贝叶斯分类器 bayes classifer, R relevant , D document //贝叶斯公式所以我们判断是相关即要求这个后面会引出BM25模型 2.如何计算P(D|R) 采用二元模型，我们用一个文档中所有词的出现概率来计算P(D|R),我们不考虑词的位置，也不考虑出现次数，并且我们假设采用1gram模型，也即A 阅读全文

posted @ 2010-07-04 17:52 阁子阅读(1718) 评论(0) 推荐(0)

2009年12月13日

写了一个基于MMSeg分词算法的中文分词器（C++)

摘要： MMSEG恐怕是最简单易实现而且效果还可以的基于字典的机械分词算法。http://nzinfo.spaces.live.com/Blog/cns!67694E0B61E3E8D2!344.entry当前我的程序放在http://code.google.com/p/chinese-word-segmentaion/网上有一个C++版本的源代码，但是我运行老是字典载入不成功。我看了下他的代码内部用的m... 阅读全文

posted @ 2009-12-13 00:49 阁子阅读(7013) 评论(2) 推荐(3)

游园惊梦(https://github.com/chenghuige)

公告