随笔分类 -  Feature Selection

摘要:在数据挖掘过程中,高维数据是非常棘手的研究对象。特别是在文本挖掘、图像处理和基因数据分析中,维度过高使很多学习器无法工作或效率降低,所以降维也是数据预处理过程的一项必要任务。降维大致有两大类别,一类是从原始维度中提取新的维度,例如主成分分析或因子分析,再或者是奇异值分解或是多维标度分析。另一类是从原... 阅读全文
posted @ 2014-09-17 11:23 黎嫣 阅读(2019) 评论(0) 推荐(0)
摘要:目前,很多特征选择文献主要是依据对共信息的直观认识使用它,即:正值表示表型的存在使特征间依赖程度增加,是特征间存在相互作用的证据;负值表示表型的存在使特征间冗余性增加;零表示特征是相互独立的,或者说,是特征间的增益与冗余相互抵消了。因此,从理论上深入认识共信息是一项创新工作。识别阶段的第一项工作是使... 阅读全文
posted @ 2014-09-01 10:29 黎嫣 阅读(543) 评论(0) 推荐(0)
摘要:互信息已广泛应用于特征选择问题,但应用在 SNP 选择上还存在着一些局限。第一,互信息只能衡量一个 SNP 组合与表型的相关性, 无法衡量多个 SNP 与表型的相关性。第二, 利用互信息排序 SNP 时,隐含着一个假设,即: SNP 间是相互独立的,不存在着依赖关系。然而事实上,SNP 间存在着广泛... 阅读全文
posted @ 2014-08-04 17:12 黎嫣 阅读(378) 评论(0) 推荐(0)
摘要:多因子降维法(MDR,Multifactor Dimensionality Reduction )MDR是近年统计学中发展起来的一种新的分析方法。其中,“因子” 即交互作用研究中的变量,“维” 是指研究中多因子组合的个数。该方法主要应用于卫生统计学,流行病学及遗传学中,它以疾病易感性分类的方式建模,... 阅读全文
posted @ 2014-05-07 11:06 黎嫣 阅读(3020) 评论(0) 推荐(0)
摘要:因子分析和主成分分析的异同点:1.主成分分析仅仅是一种数据变换而不假设数据矩阵有什么样的结构形式因子分析假定数据有特定的模型,而且齐总的因子满足特定的条件2.因子分析和主成分分析都是从相关矩阵出发,找出解决问题的方法。因子分析是利用主成分分析法从相关矩阵中提取公因子,公因子个数q小于变量个数p,这q... 阅读全文
posted @ 2014-03-26 11:55 黎嫣 阅读(1342) 评论(0) 推荐(0)
摘要:REF[24]随机森林是一个很好适用于微阵列数据的分类算法:1.即使大多数的预测变量都是噪音,RF仍然具有优秀的性能,因此不需要对基因进行预选择。2.能够应用于变量数远远大于观测数据量的情况3.能用于两类和多于两个分类问题的情况4.返回变量重要性测量5.不会过拟合6.能处理分类和连续预测器的混合7.... 阅读全文
posted @ 2014-03-07 17:45 黎嫣 阅读(248) 评论(0) 推荐(0)