摘要:注1:本文旨在梳理汇总出我们在建模过程中遇到的零碎小问题及解决方案(即当作一份答疑文档),会不定期更新,不断完善, 也欢迎大家提问,我会填写进来。 注2:感谢阅读。为方便您查找想要问题的答案,可以就本页按快捷键Ctrl+F,搜索关键词查找,谢谢。 1. 读写csv文件时,存在新的一列,Unnamed 阅读全文
posted @ 2019-08-24 17:54 likedata 阅读 (64) 评论 (0) 编辑
摘要:Hoeffding霍夫丁不等式 在<<机器学习>>第八章"集成学习"部分, 考虑二分类问题y∈{−1,+1}y∈{−1,+1}y \in \{ 1, +1\} 和真实函数fff, 假定基分类器的错误率为ϵϵ\epsilon, 即对每个基分类器hihih_{i}有 P(hi(x 阅读全文
posted @ 2019-08-27 09:26 likedata 阅读 (11) 评论 (0) 编辑
摘要:几个概念 正交矩阵 在矩阵论中,正交矩阵(orthogonal matrix)是一个方块矩阵,其元素为实数,而且行向量与列向量皆为正交的单位向量,使得该矩阵的转置矩阵为其逆矩阵: 其中,为单位矩阵。正交矩阵的行列式值必定为或,因为: 对角矩阵 对角矩阵(英语:diagonal matrix)是一个主 阅读全文
posted @ 2019-08-24 18:12 likedata 阅读 (21) 评论 (0) 编辑
摘要:阅读全文
posted @ 2019-08-24 17:55 likedata 阅读 (14) 评论 (0) 编辑
摘要:注1:本文旨在梳理汇总出我们在建模过程中遇到的零碎小问题及解决方案(即当作一份答疑文档),会不定期更新,不断完善, 也欢迎大家提问,我会填写进来。 注2:感谢阅读。为方便您查找想要问题的答案,可以就本页按快捷键Ctrl+F,搜索关键词查找,谢谢。 1. 读写csv文件时,存在新的一列,Unnamed 阅读全文
posted @ 2019-08-24 17:54 likedata 阅读 (64) 评论 (0) 编辑
摘要:关于卡方分箱,网上有很多文章,但几乎没有文章介绍分箱时相邻区间卡方值计算的方法,而本文在介绍卡方分箱的同时,重点介绍了相邻区间卡方值的计算方法。通过本文,希望大家能对卡方分箱有清楚透彻的认识。 分箱是什么 分箱是将连续的变量离散化,将多状态的离散变量合并成少状态。这里要注意的是,不仅仅是连续变量要分 阅读全文
posted @ 2019-08-24 17:53 likedata 阅读 (71) 评论 (0) 编辑
摘要:我们在推导机器学习公式时,常常会用到各种各样的对数,但是奇怪的是--我们往往会忽略对数的底数是谁,不管是2,e,10等。 原因在于,lnx,log2x,log10x,之间是存在常数倍关系。 回顾学过的数学知识,换底公式如下: 则有 故我们不用纠结对数公式中底数究竟是谁,常数倍关系往往对最后结果不产生 阅读全文
posted @ 2019-08-24 17:52 likedata 阅读 (155) 评论 (0) 编辑
摘要:1. 写Python代码,根据PEP8风格,默认一行的长度不超过 80 个字符。 但是pycharm 默认是第 120 个字符处,故进行修改: File→Settings→Editor→Code Style→Hard wrap at ___ columns的值设为80 2. Pycharm运行部分代 阅读全文
posted @ 2019-08-24 17:51 likedata 阅读 (59) 评论 (0) 编辑
摘要:一、通过HTML方式 插入本地图片 使用 <img src> 语句插入本地图片,其中src为图片路径,可以是相对路径或绝对路径。 <img src="./jupyter_logo.png", width=320, heigth=240> 上述语句为插入当前目录下名为“jupy 阅读全文
posted @ 2019-08-21 12:26 likedata 阅读 (10) 评论 (0) 编辑
摘要:阅读全文
posted @ 2019-08-21 12:19 likedata 阅读 (11) 评论 (0) 编辑
摘要:记得在做电商运营初期,每每为我们频道的促销活动锁取得的“超高”销售额感动,但后来随着工作的深入,我越来越觉得这里面水很深。商家运营、品类运营不断的通过刷单来获取其所需,或是商品搜索排名,或是某种kpi指标,但这些所谓的“脏数据”,却妨碍了平台运营者对于真实数据的分析和促销效果的评估。今天我们讨论一种 阅读全文
posted @ 2019-08-21 12:09 likedata 阅读 (9) 评论 (0) 编辑