条件随机场

正文内容加载中...
posted @ 2013-03-16 16:30 张淼 阅读(3351) 评论(1) 推荐(1) 编辑

最大熵

摘要: 1、信息与熵 熵(信息熵)可被认为是系统不确定性(混乱程度)的度量,熵值越大,系统越混乱。 一个X值域为{x1, ..., xn}的随机变量的熵值 H 定义为: 其中,E 代表了期望函数,而I(X) 是X的信息量(又称为信息本体),熵是随机变量的各值域概率及其信息量积的加总 信息量是用来衡量单一随即变量发生时所含信息的的多寡,随机变量发生的概率越... 阅读全文
posted @ 2013-03-10 17:43 张淼 阅读(985) 评论(0) 推荐(0) 编辑

隐马尔可夫模型

摘要: 去年闲着蛋疼做了个HMM的分词器,应好基友@jnduan的要求整理一下忽悠忽悠。 此篇形式化的符号多了一些,因为我希望能从模型的角度去讲明白算法细节里的数学思想,默认读者了解过一些背景知识(推荐吴军博士数学之美系列中分词一章作为本篇的前置课程) 1、马尔可夫过程 — 既不互相独立的随机变量依赖于此前的随机变量序列 N个有限状态S={s1, s2, ... sn}, 随机变量序列... 阅读全文
posted @ 2013-01-11 11:55 张淼 阅读(402) 评论(0) 推荐(0) 编辑

朴素贝叶斯与文本分类

摘要: 0、由乘法公式引出P(AB) = P(B|A) P(A)P(B|A) = P(AB) / P(A)P(B|A) = P(A|B) P(B) / P(A)1、提出问题对于指定文档从属于某一类别的问题从概率的角度可以理解为 求P(B|A) 意思为给定A的条件,求B发生的概率。那么对于多个类别集合Classify和指定的文档Document, 则有结果类别 Cr = argmax P(Classify | Document), 求文档Document出现在每一个Classify的概率2、具体化到贝叶斯公式由P(Document)表示文档, P(Classify)表示分类, 则P(Classify|D 阅读全文
posted @ 2012-12-12 17:03 张淼 阅读(534) 评论(0) 推荐(0) 编辑

支持向量机

摘要: 本篇文章是我学习SVM的摘抄笔记,其中大量公式抄自JerryLead的同名博客。想拜读精彩的SVM博文,移步至此http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html1、由线性判别模型引出 假设某一场景的数据集线性可分,那么如何确定一条最优或者次优的模型函数,我们可以通过引入最优间隔这个概念来确定一个性能最优的模型2、函数间隔和几何间隔给定一个训练样本,x是特征,y是结果标签。i表示第i个样本。我们定义函数间隔如下: 当=1时,其函数间隔大于等于0,当=-1时,仍大于等于0。函数间隔表示出特征是正例还是反例的确信度。为了 阅读全文
posted @ 2012-12-12 16:57 张淼 阅读(361) 评论(0) 推荐(0) 编辑

logistic回归

摘要: 1、由线性回归引出的分类问题 在线性回归中,X定义域为实数集,假设函数(Hypothesis)值域也取值实数集,那么希望有一种假设函数可将取值为实数集特征向量映射到有限的值域。logistic函数: logistic函数可以将取值为特征向量映射到值域(0,1)。 关于X特征向量的假设函数 那么我们可将有限值域的回归函数通过设定决策边界将之变为判别函数 2、损失函数线性回归的损失函数为 若假设函数(Hypothesis)为逻辑斯蒂函数,则损失函数的不是一个二次的凸函数,用梯度下降法不能求其的极值,但损失函数不限于一种。统计学习中常用的损失函数有以下几种:(1)、0-1损失函数(0-1 loss 阅读全文
posted @ 2012-11-16 15:16 张淼 阅读(2667) 评论(0) 推荐(0) 编辑

线性感知机

摘要: 1、判别分类模型假设输入空间X中的每个特征x取值为实数集,输出空间y = {-1,+1},那么一个分类器可以表示为二值函数 其中输出值为1的样本为正例,输出值为-1的样本为负例。线性感知机的假设前提是样本空间线性可分,既有一个超平面能够将特征空间划分为两个部分2、感知机模型 若给定的向量特征向量X带入g(x) 0则样本为正例,否则为负例。那么对感知机的学习过程就是对w, b的估计3、损失函数感知机的学习过程是定义一个损失函数,通过学习策略使得损失函数的值最小化。它的定义为误分类点到超平面的的总距离,点到超平面的距离定义为 是的L2范数,对于误分类点(x,y)来说 -y(wx + b)>0 阅读全文
posted @ 2012-11-16 15:01 张淼 阅读(679) 评论(0) 推荐(0) 编辑

线性回归

摘要: 1、假设模型线性回归的前置假设是给定的样本模型满足线性关系,即假设的线性模型可以近似的拟合数据 在确定假设模型之后,需要的是对模型函数的参数进行估计,这里是对向量进行估计2、损失函数我们需要一个机制去评估向量θ是否比较好的拟合数据,所以说需要对迭代中的假设模型h进行评估,称为损失函数(loss function),描述h函数与真实数据的误差,我们期望于有某种方法使得误差值最小 3、梯度下降法目标:步骤:1、对于每个,给一个初始值,例如都等于0 2、每次改变的时候都保持损失函数J递减,直到达到一个我们满意的最小值;对于任何损失函数J , 初始位置不同,最终达到的极小值点也不同描述:repeat. 阅读全文
posted @ 2012-11-16 14:56 张淼 阅读(567) 评论(0) 推荐(0) 编辑

mongodb集群脚本工具(shell)

摘要: 最近一直忙着部署mongodb集群,感觉分片部署还挺麻烦。网上也没有一些mongodb运维工具,就花了两天时间写了个启动和停止mongodb集群的shell脚本,希望在启动停止mongodb和hadoop一样省时省力。暂时写了启动停止分片,以后会添加更多的功能。烧包的写了英文帮助[sh start-mongodb.sh -h],英文好的哥们估计看不懂,将就吧。。http://files.cnblogs.com/zhangmiao-chp/mongodb-shell.zip 阅读全文
posted @ 2011-05-31 14:39 张淼 阅读(1315) 评论(0) 推荐(0) 编辑

map/reduce多个field组合排序

摘要: 年初领导让做一个检索热词的干预,也就是将统计用户搜索热词的结果,人工的指定其在排行榜中的位置。当然这任务比较恶心,咱只是个出来混饭碗的民工,不出格的事儿也可以忍了 说技术。工作流程是收集用户的搜索日志,统计每个keyword在一天之中被搜索的次数,根据每个keyword的统计历史,使用数学方差得出它近期热度的评分,然后降序排序给出结果列表。(如果做的更细致可以在计算前加入语义分析的部分,这样能更好的分析出刚刚流行的网络用语,我没有做那么深,这里暂时不表) 现在加入人工干预的部分,排行本来就是个topN的问题,干预的也是排行的前几个。编辑向来喜欢简单直接粗暴的方法,把某个关键词直接指定他的位置. 阅读全文
posted @ 2011-05-12 10:54 张淼 阅读(828) 评论(0) 推荐(0) 编辑