项目清单:
1. 商业目标
2. 划定问题 监督或非监督,还是强化学习。
3. 选择什么算法 回归还是分类, 数据量小可使用单机内存的 批量计算, 数据量大使用分布式的MapReduce 线上计算。
4. 评估模型性能的指标
对于回归问题:

当异常值较多时, 应更多采用L1 范数的指标:

岭回归:
岭回归(也称为 Tikhonov 正则化 属于L2范数)是线性回归的正则化版:在损失函数上直接加上一个正则项 。

当a=0时,为线性回归, 当a无限大时,模型的所有参数为0 。
注意当
增大的时候,导致预测曲线变得扁平(即少了极端值,多了一般值),这样减少了模型的方差,却增加了模型的偏差。
Lasso 回归:
在损失函数上加 L1 范数。

弹性网络(ElasticNet):
弹性网络介于 Ridge 回归和 Lasso 回归之间。

早期停止法(Early Stopping):
一旦验证错误达到最小值,便提早停止训练。
逻辑回归:


支持向量机


5. 要花多少精力进行微调

浙公网安备 33010602011771号