ML基础番外篇-ABtest相关
摘要:关于这个主题,涉及到以下问题: 1、大数定理 描述样本均值和真实均值的关系:样本足够大,样本均值倾向于真实均值 2、中心极限定理 描述样本均值和正太分布的关系:样本足够大,样本均值分布接近正太分布 3、置信度和置信区间 给定一个置信度,可以查表得出置信区间 4、假设检验 给出一个假设,从而基于这个假
阅读全文
ML基础06-数据不平衡问题
摘要:0、什么是数据不平衡问题 在机器学习的分类问题中,不同类别的样本数据量存在差异。在某些场景,比如网页点击率预估(网页点击率低),购物推荐(浏览产生的购买少),信用卡欺诈,网络攻击识别等,这种差异可能会较大。传统的学习算法,对不同类别的数据一视同仁地处理,会产生在多数类样本效果较好,但是在少数类样本上
阅读全文
ML基础04-数据降维和可视化
摘要:太累了,实在是不想写了,以后补吧 1、数据降维 1.1、什么是数据降维 1.2、什么时候需要数据降维 2、线性降维 2.1、PCA 2.2、LDA 2.3、总结 3、流形学习 3.1、什么是流形学习 3.2、ISOMap 3.3、LLE 4、t-SNE和可视化 5、DeepAE 6、总结
阅读全文
ML基础03-特征工程
摘要:1、特征工程是什么 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见对数据和特征的处理是机器学习的基石,也就是我所理解的特征工程。特征工程本质上是一个工程问题,机器学习的脏活累活。却也是不可获取至关重要的工作。业界广为流传的一张特征工程思维导图如
阅读全文
ML基础02-模型选择
摘要:0、模型选择 对于不同的业务场景,需要不同的策略来处理问题。没有一个算法可以处理好所有问题,并取得最好的效果。这样就是没有免费午餐原理。 因此,对于不同业务,不同的应用场景,需要选择不同的模型来解决实际问题。 对于模型的选择,可以分为两个层面: 1、对于一个既定算法,如何让这个算法达到最优? 2、对
阅读全文
ML基础01-概论
摘要:0.前言 学习机器学习有几年时间了,开始一直是零零碎碎断断续续学一些东西,断续琐碎;后面慢慢地把各个点串起来,形成了体系。早有打算整理出来,但是总觉得有些地方理解欠佳,不敢轻易动笔。最近把各个部分都思考了一下,感觉应该问题不大了,遂准备着手整理成一系列文章。记录自己对机器学习的一些理解,以备忘。 也
阅读全文