摘要:
机器学习分类过程中,如果遇到多个分类器表现差不多,想综合各个分类器的优势时,可以考虑多分类器投票,即VOTING的方法,也可以考虑learning to rank的方法优选偏重于正确分类标签的预测得分组合。下面简单总结一下使用svmrank进行集成学习的方法。首先把数据分为训练集、验证集、测试集,然后都进行特征提取和量化训练集(training):原始数据,每一列都是特征,用来提取原始特征,训练多个基分类器验证集(developing):结合多个基分类器对每种类别的得分,训练集成分类器测试集(testing):最终测试用######ranksvm数据格式######验证集和测试集根据svmra 阅读全文
摘要:
Language Model 中文就叫做“语言模型”吧,这实际上是一个概率分布模型P ,对于语言里的每一个字符串S 给出一个概率P(S) 。稍微正式一点的定义可以这样说:假设有一个符号的集合 ,我们不妨把每一个 称作一个“单词”,由零个或多个单词连接起来就组成了一个字符串 ,字符串可长可短,例如实际语言中的句子、段落或者文档都可以看作一个字符串。所有合法(例如,通过一些语法约束)的字符串的集合称作一个语言,而一个语言模型就是这个语言里的字符串的概率分布模型。在上面的非正式的定义中,我使用了“单词”、“字符串”这样的字眼,然而 Language Model 实际上非常通用,任何由一些基础单... 阅读全文
摘要:
前段时间项目中有一个功能模块用到了FlashCC,将C++的代码编译成swc文件,以便在Flash工程中使用。开发过程中遇到一些问题,现在记录下来,以便日后查阅。一、开发环境搭建说明:本文所使用的FlashCC版本为1.0.1, 操作系统为Windows7 Professional 32位相对于FlashCC的前身Alchemy来说,FlashCC的开发环境搭建已经简化了许多,一些开发过程中依赖的组件已经默认集成到官方提供的定制Cygwin当中。首先需要注意最小系统需求,下面是官方给出的标准:Flash Player 11 or higher Flex SDK 4.6 or higherJav 阅读全文