摘要: 到目前为止,我们已经重点介绍了如何对两个单独的浮点特征进行特征组合。在实践中,机器学习模型很少会组合连续特征。不过,机器学习模型却经常组合独热特征矢量,将独热特征矢量的特征组合视为逻辑连接。例如,假设我们具有以下两个特征:国家/地区和语言。对每个特征进行独热编码会生成具有二元特征的矢量,这些二元特征 阅读全文
posted @ 2018-03-25 10:14 taro_秋刀鱼 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 在图 1 和图 2 中,我们做出如下假设: 蓝点代表生病的树。 橙点代表健康的树。 图1 这是线性问题吗? 您可以画一条线将生病的树与健康的树清晰地分开吗?当然可以。这是个线性问题。这条线并不完美。有一两棵生病的树可能位于“健康”一侧,但您画的这条线可以很好地做出预测。 现在,我们来看看下图: 图2 阅读全文
posted @ 2018-03-25 10:11 taro_秋刀鱼 阅读(401) 评论(0) 推荐(0) 编辑
摘要: 苹果树结出的果子有品相上乘的,也有虫蛀坏果。而高端便利店出售的苹果是 100% 完美的水果。从果园到水果店之间,专门有人花费大量时间将坏苹果剔除或给可以挽救的苹果涂上一层薄薄的蜡。作为一名机器学习工程师,您将花费大量的时间挑出坏样本并加工可以挽救的样本。即使是非常少量的“坏苹果”也会破坏掉一个大规模 阅读全文
posted @ 2018-03-25 10:09 taro_秋刀鱼 阅读(411) 评论(0) 推荐(0) 编辑
摘要: 我们探索了将原始数据映射到合适特征矢量的方法,但这只是工作的一部分。现在,我们必须探索什么样的值才算这些特征矢量中良好的特征。 避免很是使用的离散特征值 良好的特征值应该在数据集中出现大约 5 次以上。这样一来,模型就可以学习该特征值与标签是如何关联的。也就是说,大量离散值相同的样本可让模型有机会了 阅读全文
posted @ 2018-03-25 10:08 taro_秋刀鱼 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 传统编程的关注点是代码。在机器学习项目中,关注点变成了表示。也就是说,开发者通过添加和改善特征来调整模型。 将原始数据映射到特征 图1左侧表示来自输入数据源的原始数据,右侧表示 特征矢量 ,也就是组成数据集中样本的浮点值集。 特种工程 指的是将原始数据转换为特征矢量。进行特种工程预计需要大量的时间。 阅读全文
posted @ 2018-03-25 10:07 taro_秋刀鱼 阅读(441) 评论(0) 推荐(0) 编辑
摘要: 在每次迭代时,我们都会对训练数据进行训练并评估测试数据,并以基于测试数据的评估结果为指导来选择和更改各种模型超参数,例如学习速率和特征。 多次重复执行流程可能导致我们不知不觉地拟合我们的特征测试集的特性。 上一个单元介绍了如何将数据集划分为训练集和测试集。这种划分,您可以对一个样本集进行训练,然后使 阅读全文
posted @ 2018-03-24 10:05 taro_秋刀鱼 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 拆分训练集和测试集 图1 将单个数据集拆分为一个训练集和一个测试集 确保您的测试集满足以下两个条件: 规模足够大,可以参数具有统计意义的结果。 能代表整个数据集。换言之,挑选的测试集的特征应该与训练集的特征相同。 假设您的测试集满足上述两个条件,您的目标是创建一个能够很好地泛化到新数据的模型。我们的 阅读全文
posted @ 2018-03-24 10:04 taro_秋刀鱼 阅读(1029) 评论(0) 推荐(0) 编辑
摘要: 泛化 本单元将重点介绍泛华。为了让您直观地理解这一概念,我们将展示3张图片。假设每个点代表一棵树在深林中的位置。图中的两种颜色分别代表一下含义: 蓝点代表生病的树。 橙色代表健康的树。 接下来,我们来看看图1。 图1 生病(蓝色)和健康(橙色)的树 您能设想出一个有效的模型来预测以后的生病或健康的树 阅读全文
posted @ 2018-03-24 10:04 taro_秋刀鱼 阅读(594) 评论(0) 推荐(0) 编辑
摘要: 在梯度下降法中,批量指的是用于在单次迭代中计算梯度的样本总数。到目前为止,我们一直假定批量是指整个数据集。就 Google 的规模而言,数据集通常包含数十亿甚至数千亿个样本。此外,Google 数据集通常包含海量特征。因此,一个批量可能相当巨大。如果是超大批量,则单次迭代就可能要花费很长时间进行计算 阅读全文
posted @ 2018-03-24 10:03 taro_秋刀鱼 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 正如之前所述,梯度矢量具有大小和方向。梯度下降算法用梯度乘以一个称为 学习速率 (有时候也称为 步长 )的标量,以确定下一个点的位置。例如,如果梯度大小为2.5,学习速率的大小为0.01,则梯度下降算法会选择距离前一个点0.025的位置作为下一个点。 超参数 是编程人员在机器学习算法中用于调整的按钮 阅读全文
posted @ 2018-03-24 10:02 taro_秋刀鱼 阅读(583) 评论(0) 推荐(0) 编辑