Tri-training regression, 协同训练回归

本帖续贴(Tri-trianing :http://www.cnblogs.com/liqizhou/archive/2012/05/11/2496162.html

以往的半监督学习研究几乎都是关注分类问题  ,虽然在监督学习中回归问题的重要性不亚于分类问题,半监督回归却一直缺乏研究。如第二节所述,在半监督回归中由于示例的标记是实值输出,因此聚类假设不再成立,但半监督学习的流形假设仍然是成立的,而且因为回归输出通常具有平滑性,所以流形假设在回归问题中可能比在分类问题中更加有效。因此,如Zhu [Zhu06] 所述,一些基于流形假设的半监督学习技术,例如图正则化算法,在理论上是可以推广到半监督回归中去的。但实际上,此类技术由于要先建立图再进行标记传播,因此若直接推广则只能进行直推回归,要进行半监督回归还需要做一些其他处理。Z.-H. Zhou和M. Li [ZhouL05b] 最早使用协同训练技术进行半监督回归。在回归问题中,由于示
例的属性是连续的实数值,这就使得以往协同训练算法中所使用的标记置信度估计技术难以直接使用。为此,他们提出了一个选择标记置信度最高的未标记示例的准则——标记置信度最高的未标记示例是在标记后与学习器的有标记训练集最一致的示例。更严格的表述是,令h表示当前学习器学得的模型,L表示有标记示例集,xu∈U表示一个未标记示例,h’表示把h标记过的示例(xu , h(xu))加入训练集后重新训练得到的学习器,则标记置信度最高的未标记示例是在U中最大化式 3 的示例。

实际上, 3 也可以用于半监督分类。式基于式 3,Z.-H. Zhou 和 M. Li [ZhouL05b] 提出了 COREG算法,该算法不要求充分冗余视图,而是通过使用同一学习器的不同参数设置来生成两个初始学习器。具体来说,他们使用了基于不同阶 Minkowski 距离的两个 k 近邻回归模型作为学习器,在协同训练过程中,两个学习器根据式 3 挑选未标记示例进行标记供对方进行更新。最后的回归预测通过对两个 k 近邻回归模型预测值的平均来完成。此后,他们 [ZhouL07] 又将 COREG 推广到使用不同距离度量、不同近邻个数以及其他回归模型的情况。

posted @ 2012-05-11 15:38  Liqizhou  阅读(3534)  评论(0编辑  收藏  举报