摘要: 随着数据收集和存储技术的发展,收集大量缺少标记的数据已相当容易,而为这些数据提供标记则相对困难,因为数据标记过程往往需要消耗大量人力物力,甚至必须依赖于少数领域专家来完成。例如在计算机辅助诊断中,可以方便地从医院日常体检中获取训练数据,但是让医学权威专家为所有的体检结果提供诊断往往是不现实的。事实上,在实际应用中,大量未标记数据和少量有标记数据并存的情况比比皆是。然而,由于能用于监督学习的有标记样本较少,通常难以学得泛化能力强的模型。因此,如何利用大量未标记数据来帮助提升在少量有标记数据上学得模型的泛化能力,成了当前机器学习领域倍受关注的重要问题之一。 阅读全文
posted @ 2013-06-21 12:00 ChaoSimple 阅读(3629) 评论(0) 推荐(1) 编辑