摘要: 稀疏矢量通常包含许多维度。创建特征组合会导致包含更多维度。由于使用此类高维度特征矢量,因此模型可能会非常庞大,并且需要大量的 RAM。 在高维度稀疏矢量中,最好尽可能使权重正好降至 0。正好为 0 的权重基本上会使相应特征从模型中移除。 将特征设为 0 可节省 RAM 空间,且可以减少模型中的噪点。 阅读全文
posted @ 2018-03-25 10:59 taro_秋刀鱼 阅读(3912) 评论(0) 推荐(0) 编辑
摘要: 逻辑回归预测应当无偏差。即: 预测偏差指的是这两个平均值之间的差值。即: $$\text{预测偏差} = \text{预测平均值} \text{数据集中相应标签的平均值}$$ 注意:“预测偏差”与偏差(“wx + b”中的“b”)不是一回事。 如果出现非常高的非零预测偏差,则说明模型某处存在错误,因 阅读全文
posted @ 2018-03-25 10:56 taro_秋刀鱼 阅读(1326) 评论(0) 推荐(0) 编辑
摘要: ROC 曲线 (接收者操作特征曲线)是一种显示分类模型在所有分类阈值下的效果的图表。该曲线绘制了以下两个参数: 真正例率 假正例率 真正例率 (TPR) 是召回率的同义词,因此定义如下: $$TPR = \frac{TP} {TP + FN}$$ 假正例率 (FPR) 的定义如下: $$FPR = 阅读全文
posted @ 2018-03-25 10:55 taro_秋刀鱼 阅读(1773) 评论(0) 推荐(0) 编辑
摘要: 精确率 精确率 指标尝试回答以下问题: 精确率的定义如下: $$\text{Precision} = \frac{TP}{TP+FP}$$ 注意:如果模型的预测结果中没有假正例,则模型的精确率为 1.0。 让我们来计算一下上一部分中用于分析肿瘤的机器学习模型的精确率: 真正例 (TP):1 假正例 阅读全文
posted @ 2018-03-25 10:43 taro_秋刀鱼 阅读(5491) 评论(0) 推荐(0) 编辑
摘要: 准确率是一个用于评估分类模型的指标。通俗来说,准确率是指我们的模型预测正确的结果所占的比例。正式点说,准确率的定义如下: $$\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of pre 阅读全文
posted @ 2018-03-25 10:21 taro_秋刀鱼 阅读(473) 评论(0) 推荐(0) 编辑
摘要: 在本部分,我们将定义用于评估分类模型的指标的主要组成部分。不过,我们先来看一则寓言故事: 伊索寓言:狼来了(精简版) 有一位牧童要照看镇上的羊群,但是他开始厌烦这份工作。为了找点乐子,他大喊道:“狼来了!”其实根本一头狼也没有出现。村民们迅速跑来保护羊群,但他们发现这个牧童是在开玩笑后非常生气。 [ 阅读全文
posted @ 2018-03-25 10:20 taro_秋刀鱼 阅读(495) 评论(0) 推荐(0) 编辑
摘要: 逻辑回归返回的是概率。您可以“原样”使用返回的概率(例如,用户点击此广告的概率为 0.00023),也可以将返回的概率转换成二元值(例如,这封电子邮件是垃圾邮件)。 如果某个逻辑回归模型对某封电子邮件进行预测时返回的概率为 0.9995,则表示该模型预测这封邮件非常可能是垃圾邮件。相反,在同一个逻辑 阅读全文
posted @ 2018-03-25 10:18 taro_秋刀鱼 阅读(2592) 评论(0) 推荐(0) 编辑
摘要: 逻辑回归的损失函数 线性回归的损失函数是平方损失。逻辑回归的损失函数是对数损失函数,定义如下: $$Log Loss = \sum_{(x,y)\in D} ylog(y') (1 y)log(1 y')$$ 其中: (x,y)ϵD 是包含很多有标签样本 (x 阅读全文
posted @ 2018-03-25 10:17 taro_秋刀鱼 阅读(1945) 评论(0) 推荐(0) 编辑
摘要: 许多问题需要将概率估算值作为输出。逻辑回归是一种极其高效的概率计算机制。实际上,您可以通过下两种方式之一使用返回的概率: “按原样” 转换成二元类别 我们来了解一下如何“按原样”使用概率。假设我们创建一个逻辑回归模型来预测狗在半夜发出叫声的概率。我们将此概率称为: $$p(bark | night) 阅读全文
posted @ 2018-03-25 10:16 taro_秋刀鱼 阅读(6131) 评论(0) 推荐(0) 编辑
摘要: 请查看以下 泛化曲线 ,该曲线显示的是训练集和验证集相对于训练迭代次数的损失。 图 1 显示的是某个模型的训练损失逐渐减少,但验证损失最终增加。换言之,该泛化曲线显示该模型与训练集中的数据过拟合。根据 "奥卡姆剃刀定律" ,或许我们可以通过降低复杂模型的复杂度来防止过拟合,这种原则称为正则化。 也就 阅读全文
posted @ 2018-03-25 10:15 taro_秋刀鱼 阅读(407) 评论(0) 推荐(0) 编辑
摘要: 模型开发者通过以下方式来调整正则化项的整体影响:用正则化项的值乘以名为 lambda(又称为正则化率)的标量。也就是说,模型开发者会执行以下运算: $$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$ 执行 阅读全文
posted @ 2018-03-25 10:15 taro_秋刀鱼 阅读(1987) 评论(0) 推荐(0) 编辑
摘要: 到目前为止,我们已经重点介绍了如何对两个单独的浮点特征进行特征组合。在实践中,机器学习模型很少会组合连续特征。不过,机器学习模型却经常组合独热特征矢量,将独热特征矢量的特征组合视为逻辑连接。例如,假设我们具有以下两个特征:国家/地区和语言。对每个特征进行独热编码会生成具有二元特征的矢量,这些二元特征 阅读全文
posted @ 2018-03-25 10:14 taro_秋刀鱼 阅读(497) 评论(0) 推荐(0) 编辑
摘要: 在图 1 和图 2 中,我们做出如下假设: 蓝点代表生病的树。 橙点代表健康的树。 图1 这是线性问题吗? 您可以画一条线将生病的树与健康的树清晰地分开吗?当然可以。这是个线性问题。这条线并不完美。有一两棵生病的树可能位于“健康”一侧,但您画的这条线可以很好地做出预测。 现在,我们来看看下图: 图2 阅读全文
posted @ 2018-03-25 10:11 taro_秋刀鱼 阅读(399) 评论(0) 推荐(0) 编辑
摘要: 苹果树结出的果子有品相上乘的,也有虫蛀坏果。而高端便利店出售的苹果是 100% 完美的水果。从果园到水果店之间,专门有人花费大量时间将坏苹果剔除或给可以挽救的苹果涂上一层薄薄的蜡。作为一名机器学习工程师,您将花费大量的时间挑出坏样本并加工可以挽救的样本。即使是非常少量的“坏苹果”也会破坏掉一个大规模 阅读全文
posted @ 2018-03-25 10:09 taro_秋刀鱼 阅读(411) 评论(0) 推荐(0) 编辑
摘要: 我们探索了将原始数据映射到合适特征矢量的方法,但这只是工作的一部分。现在,我们必须探索什么样的值才算这些特征矢量中良好的特征。 避免很是使用的离散特征值 良好的特征值应该在数据集中出现大约 5 次以上。这样一来,模型就可以学习该特征值与标签是如何关联的。也就是说,大量离散值相同的样本可让模型有机会了 阅读全文
posted @ 2018-03-25 10:08 taro_秋刀鱼 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 传统编程的关注点是代码。在机器学习项目中,关注点变成了表示。也就是说,开发者通过添加和改善特征来调整模型。 将原始数据映射到特征 图1左侧表示来自输入数据源的原始数据,右侧表示 特征矢量 ,也就是组成数据集中样本的浮点值集。 特种工程 指的是将原始数据转换为特征矢量。进行特种工程预计需要大量的时间。 阅读全文
posted @ 2018-03-25 10:07 taro_秋刀鱼 阅读(441) 评论(0) 推荐(0) 编辑