PDEagle的技术博客

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2012年1月5日

摘要: 先说明一下:本篇博客不是关于最大熵模型的介绍,只是对模型结果的理解。更准确地讲,是对张乐博士的maxent开源库的理解。所以,读者应按其所需选择是否继续。最大熵模型就是要在满足下面式子的前提下使得整个解的信息熵最大化。式子如下:\sum \tilde P(x) P(y|x) f(x,y) = \sum \tilde P(x,y) f(x,y)因为这里的博客似乎不支持数学公式的编写,所以我这里简单说明一下:\sum表示的是求和符号,它表示对所有实例进行求和,\tilde P表示的是训练数据集的真实概率,而P则表示理论计算的概率。x是特征,y是打的标签。x与y的同时出现表示一个可统计的特征,此时. 阅读全文
posted @ 2012-01-05 13:11 PDEagle 阅读(1960) 评论(0) 推荐(0)

2011年10月9日

摘要: 这里总结以下Linux下的C/C++编程:先看一个简单实例:View Code 1#include<iostream>2#include<stdio.h>3#include<pthread.h>45usingnamespacestd;67void*thread(void*arg){8inti;9for(i=0;i<100;i++){10cout<<"thread:"<<i<<endl;11}12return((void*)0);13}141516intmain(){17pthread_tid;18 阅读全文
posted @ 2011-10-09 16:15 PDEagle 阅读(299) 评论(1) 推荐(0)

2011年9月30日

摘要: 互信息在自然语言处理中常有应用,最近我爬取了百度百科五十万个网页,利用中科院ICTCLAS分词系统,借助于互信息的方法,做了一个考察两个中文句子之间的语义相似度的模型。把结果整理于下。先谈谈整个思路。爬取网页并从中抽取出干净的段落,这个没有难点。初始工作完成後,就对这些文章进行分词,去掉一些停用词、人名、无意义的助词等等,得到另一份数据。这份数据一篇文章就用一些词來表示。比如:红三军 司令部 旧址 省级 重点 文物 保护 单位 位于 重庆 酉阳县 南端 南 腰 界 乡 桶 子 领导 红三军 建立 黔 东 特区 同年 率 红 军团 红 军团 会师 南 腰 界 红军 军事 指挥 中心 红三军 司令 阅读全文
posted @ 2011-09-30 09:22 PDEagle 阅读(1310) 评论(2) 推荐(1)