随笔列表第2页 - _Clarence

2012年9月3日

关于Ubuntu12.04下txt文档乱码问题的解决方案

摘要： gedit中文文本乱码。一般刚装好的ubuntu，用gedit打开txt等文本文件，由于没有像网页文件那样指明编码，gedit不能够自动识别编码，所以会出现中文汉字显示乱码。旧版本的ubuntu中解决gedit乱码的方法是，在终端中输入以下命令：gconftool-2 –set –type=list –list-type=string/apps/gedit-2/preferences/encodings/auto_detected“[UTF-8,CURRENT,GB18030,BIG5-HKSCS,UTF-16]”不过在ubuntu12.04中，上面的方法不行了，而是分别输入下面两条指令：gs 阅读全文

posted @ 2012-09-03 14:53 _Clarence 阅读(176) 评论(0) 推荐(0) 编辑

2012年8月31日

k近邻算法——k-d 树的实现

摘要：本文转自：http://www.cnblogs.com/eyeszjwang/articles/2429382.htmlk-d树（k-dimensional树的简称），是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索（如：范围搜索和最近邻搜索）。应用背景 SIFT算法中做特征点匹配的时候就会利用到k-d树。而特征点匹配实际上就是一个通过距离函数在高维矢量之间进行相似性检索的问题。针对如何快速而准确地找到查询点的近邻，现在提出了很多高维空间索引结构和近似查询的算法，k-d树就是其中一种。索引结构中相似性查询有两种基本的方式：一种是范围查询（range searches），.. 阅读全文

posted @ 2012-08-31 11:09 _Clarence 阅读(491) 评论(0) 推荐(0) 编辑

2012年8月30日

Label Bias 标记偏置问题

摘要：路径1-1-1-1的概率：0.4*0.45*0.5=0.09路径2-2-2-2的概率:0.018路径1-2-1-2:0.06路径1-1-2-2:0.066由此可得最优路径为1-1-1-1而实际上，在上图中，状态1偏向于转移到状态2，而状态2总倾向于停留在状态2，这就是所谓的标注偏置问题，由于分支数不同，概率的分布不均衡，导致状态的转移存在不公平的情况。PS：标注偏置问题存在于最大熵马尔可夫模型（MEMM）中，虽然MEMM解决了HMM输出独立性假设的问题，但是只解决了观察值独立的问题，状态之间的假设则是标注偏置问题产生的根源，CRF则解决了标注偏置问题，是HMM模型的进一步优化。HMM模型中存在阅读全文

posted @ 2012-08-30 10:17 _Clarence 阅读(979) 评论(1) 推荐(0) 编辑

2012年7月29日

CRF++总结

摘要： 1. 简述最近要应用CRF模型，进行序列识别。选用了CRF++工具包，具体来说是在VS2008的C#环境下，使用CRF++的windows版本。本文总结一下了解到的和CRF++工具包相关的信息。参考资料是CRF++的官方网站：CRF++: Yet Another CRF toolkit，网上的很多关于CRF++的博文就是这篇文章的全部或者部分的翻译，本文也翻译了一些。2. 工具包下载第一，版本选择，当前最新版本是2010-05-16日更新的CRF++ 0.54版本，不过这个版本以前我用过一次好像运行的时候存在一些问题，网上一些人也说有问题，所以这里用的是2009-05-06: CRF++ 阅读全文

posted @ 2012-07-29 21:12 _Clarence 阅读(360) 评论(0) 推荐(1) 编辑

2012年7月25日

关于Label Bais 最好的解释方式

摘要：阅读全文

posted @ 2012-07-25 13:56 _Clarence 阅读(151) 评论(0) 推荐(0) 编辑

统计模型之间的比较 v0.1

摘要：个人认为这篇文章是写得最好的一篇关于Label Bias相关阐述的文章。HMM模型将标注看作马尔可夫链，一阶马尔可夫链式针对相邻标注的关系进行建模，其中每个标记对应一个概率函数。HMM是一种产生式模型，定义了联合概率分布，其中x和y分别表示观察序列和相对应的标注序列的随机变量。为了能够定义这种联合概率分布，产生式模型需要枚举出所有可能的观察序列，这在实际运算过程中很困难，因为我们需要将观察序列的元素看做是彼此孤立的个体即假设每个元素彼此独立，任何时刻的观察结果只依赖于该时刻的状态。HMM模型的这个假设前提在比较小的数据集上是合适的，但实际上在大量真实语料中观察序列更多的是以一种多重的交互特征形阅读全文

posted @ 2012-07-25 09:41 _Clarence 阅读(233) 评论(0) 推荐(0) 编辑

Relook at Label Bias Problem

摘要： Rohit Joshi rohit.joshi at nus.edu.sg Tue Sep 27 10:37:00 SGT 2005Previous message: [GraphReading] MEMM vs CRF Next message: [GraphReading] Relook at Label Bias Problem Messages sorted by: [ date ] [ thread ] [ subject ] [ author ] Hi,In our discussion on Label bias problem, it was not clear to me w 阅读全文

posted @ 2012-07-25 09:08 _Clarence 阅读(236) 评论(0) 推荐(0) 编辑

2012年7月1日

程序员面试宝典

摘要：一：宏定义面试例题1：如何用一个宏定义FIND求一个结构体CTYPE里某个变量CNUM相对了CTYPE的编移量？如：?stuct student { int a; char b[20]; double ccc; }则：FIND(student,a); //等于0FIND(student,b); //等于4Answer： #define FIND(struc, e) (size_t)&(((struc*)0)->e)(struc*)0 //表示将常量0强制转化为struc *型指针所指向的地址&(((struc*)0)->e) /*表示取结构体指针(struc*)0 阅读全文

posted @ 2012-07-01 20:52 _Clarence 阅读(198) 评论(0) 推荐(0) 编辑

C++中有了malloc/free，为什么还需要new/delete?

摘要： C++中有了malloc/free，为什么还需要new/delete?malloc与free是C++/C语言的标准库函数，new/delete是C++的运算符。它们都可用于申请动态内存和释放内存。对于非内部数据类型的对象而言，光用malloc/free无法满足动态对象的要求。对象在创建的同时要自动执行构造函数，对象在消亡之前要自动执行析构函数。由于malloc/free是库函数而不是运算符，不在编译器控制权限之内，不能够构把造函数和析构函数的任务强加于malloc/free。因此c++语言需要一个能完成内存分配和初始化工作的运算符new，以及一个能完成清理与释放内存工作的运算符delete。n 阅读全文

posted @ 2012-07-01 20:51 _Clarence 阅读(303) 评论(0) 推荐(0) 编辑

2012年6月26日

HMM学习最佳范例三：隐藏模式

摘要： 1、马尔科夫过程的局限性在某些情况下，我们希望找到的模式用马尔科夫过程描述还显得不充分。回顾一下天气那个例子，一个隐士也许不能够直接获取到天气的观察情况，但是他有一些水藻。民间传说告诉我们水藻的状态与天气状态有一定的概率关系——天气和水藻的状态是紧密相关的。在这个例子中我们有两组状态，观察的状态（水藻的状态）和隐藏的状态（天气的状态）。我们希望为隐士设计一种算法，在不能够直接观察天气的情况下，通过水藻和马尔科夫假设来预测天气。一个更实际的问题是语音识别，我们听到的声音是来自于声带、喉咙大小、舌头位置以及其他一些东西的组合结果。所有这些因素相互作用产生一个单词的声音，一套语音识别系统检测.. 阅读全文

posted @ 2012-06-26 09:57 _Clarence 阅读(183) 评论(0) 推荐(0) 编辑