随笔分类 - 机器学习
摘要:需要利用手动特征工程从原始数据的领域知识建立特征(Stage1),然后再部署相关的机器学习算法的都不是特征学习(Stage2),像SVM、决策树、K邻近算法、随机森林都不是,他们的定位应该是在Stage2部分 特征学习可以被分为两类:监督式特征学习(Supervised Representation
阅读全文
摘要:不同数据集下使用微调: 数据集1-数据量少,但数据相似度非常高-在这种情况下,我们所做的只是修改最后几层或最终的softmax图层的输出类别。 数据集2-数据量少,数据相似度低-在这种情况下,我们可以冻结预训练模型的初始层(比如k层),并再次训练剩余的(n-k)层。由于新数据集的相似度较低,因此根据
阅读全文
摘要:A、EM是一种迭代算法,用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计。最大优点是简单和稳定,但与梯度下降一样,容易陷入局部最优。 B、SVM对缺失数据敏感,所以噪声鲁棒性不是很好。噪声鲁棒性好要数神经网络。 C、过拟合往往是因为训练数据太少而导致。 D、训练数据越多,拟合度越好,训练
阅读全文
摘要:特征提取算法 特征提取算法分为特征选择和特征抽取两大类 特征选择 常采用特征选择方法。常见的六种特征选择方法: DF(Document Frequency) 文档频率DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性 MI(Mutual Information) 互信息法互信息法用于衡量特征
阅读全文
摘要:监督学习 必须明确目标变量的值,以便算法可以发现特征和目标变量之间的关系。给定一组数据,我们就该知道输出结果应该是什么样子,并且知道输出结果和输入结果之间有一个特定的关系。 样本集:训练数据+测试数据 训练样本 = 特征 + 目标变量(label: 分类-离散值/回归-连续值) 特征通常是训练样本集
阅读全文

浙公网安备 33010602011771号