随笔分类 -  数据分析

摘要: 阅读全文
posted @ 2020-07-08 22:50 骑者赶路 阅读(728) 评论(0) 推荐(0)
摘要:https://blog.csdn.net/qq_20412595/article/details/81771790 阅读全文
posted @ 2020-07-08 15:42 骑者赶路 阅读(289) 评论(0) 推荐(0)
摘要:打靶场上来了4个枪手,开始打靶,PIAPIAPIA……一阵枪响,不一会儿,打靶成绩出来了。以下是4位抢手的打靶结果: 不难看出,第一位抢手打的又准,而且稳定性也好,把把命中红星。第二位枪手惨不忍睹,打的又偏,而且又毫无章法。第三位抢手准度一般,好在稳定性还不错,只要提升下准度,还是可以抢救一下。第四 阅读全文
posted @ 2020-07-07 23:51 骑者赶路 阅读(533) 评论(0) 推荐(0)
摘要:https://zhuanlan.zhihu.com/p/140040705 阅读全文
posted @ 2020-07-07 23:33 骑者赶路 阅读(167) 评论(0) 推荐(0)
摘要:原文为深圳大学的李祖贤 https://zhuanlan.zhihu.com/p/143009353 阅读全文
posted @ 2020-07-07 23:02 骑者赶路 阅读(207) 评论(0) 推荐(0)
摘要:一 数值类型 原因:数值类型可能跨度过大,跨几个数量级,不符合模型的前提条件。拟合出来的模型不够强壮。 1 二值化 2 处理长尾分布数量,有两种思路,一种是对数处理,一种是分箱处理。处理的原因还是因为横跨了若干个数量级,对很多模型都是问题。 3 归一化,处理设计欧式距离的算法,比如KNN,K-mea 阅读全文
posted @ 2020-07-01 19:34 骑者赶路 阅读(313) 评论(0) 推荐(0)
摘要:def reduce_mem_usage(df): """ iterate through all the columns of a dataframe and modify the data type to reduce memory usage. """ start_mem = df.memor 阅读全文
posted @ 2020-06-25 19:45 骑者赶路 阅读(637) 评论(0) 推荐(0)
摘要:https://blog.csdn.net/QimaoRyan/article/details/72861387?locationNum=9&fps=1 阅读全文
posted @ 2020-06-25 17:34 骑者赶路 阅读(162) 评论(0) 推荐(0)
摘要:https://blog.csdn.net/maymay_/article/details/80039677 阅读全文
posted @ 2020-06-25 14:51 骑者赶路 阅读(297) 评论(0) 推荐(0)
摘要:https://www.cnblogs.com/figo-studypath/p/9772630.html 阅读全文
posted @ 2020-06-24 14:09 骑者赶路 阅读(1381) 评论(0) 推荐(0)
摘要:一 对数回归 全称为对数几率回归,其它文献也称为 线性回归。 虽然称为回归,但实际是分类算法。 本质是广义线性模型。通过sigmoid函数(联系函数),将回归模型的预测值与分类的真实标记联系起来。 只适用于二分类? 多分类情况 采用 OvO或者OvR策略解决。 类别不平衡问题 采用 再缩放 (res 阅读全文
posted @ 2020-06-13 16:57 骑者赶路 阅读(144) 评论(0) 推荐(0)
摘要:一 t检验 计量方面的假设检验方法 前提条件:符合正态分布 1 单样本t检验 2 配对样本t检验 和单样本t检验差不多 总体差值的标准差为0 3 独立两样本t检验 前提条件:凉样本方差齐次 P值的含义 拒绝Ho假设的风险 二 F检验 方差检验 计量资料的假设检验方法 适用于k(k>=2)组的情况。当 阅读全文
posted @ 2020-06-11 21:18 骑者赶路 阅读(501) 评论(0) 推荐(0)
摘要:一 分类算法 KNN 神经网络 支持向量机 适用于高维数据 决策树 gini系数 熵系数 二 聚类算法 K-均值 基于原型,划分类型 不适用密度差别大,形状差异大 DBSCAN 基于密度 三 关联方法 apriori 剪枝 支持度 置信度 FR-growth 四 组合方法 bagging 原理:有放 阅读全文
posted @ 2020-06-10 13:09 骑者赶路 阅读(1030) 评论(0) 推荐(0)
摘要:一 Learning resources 二 Techniques classification clustering assocation rule regression 三 Data Preprocessing 可视化 四 没有最好的算法 五 数据挖掘中的误区 1 数据挖掘只能发现规律,不能创造 阅读全文
posted @ 2020-06-06 21:31 骑者赶路 阅读(429) 评论(0) 推荐(0)
摘要:https://blog.csdn.net/weixin_42144636/article/details/81183170 阅读全文
posted @ 2020-06-06 17:28 骑者赶路 阅读(249) 评论(0) 推荐(0)
摘要:https://www.cnblogs.com/nnufish/p/9519579.html 阅读全文
posted @ 2020-05-17 20:41 骑者赶路 阅读(293) 评论(0) 推荐(0)
摘要:https://zhuanlan.zhihu.com/p/27029515 阅读全文
posted @ 2020-04-02 14:32 骑者赶路 阅读(358) 评论(0) 推荐(0)
摘要:原文链接 https://www.cnblogs.com/niejingsong/p/11750802.html 数据分析少不了商业分析思维,以及对业务的理解。很多时候觉得思维不够健全,或者分析没有思路,其实都可以借助思维模型的学习来不足,来加速分析的成功。 之前分享了大V空白女侠的35个经典模型中 阅读全文
posted @ 2020-03-22 20:50 骑者赶路 阅读(684) 评论(0) 推荐(0)
摘要:原文链接 https://www.cnblogs.com/niejingsong/p/11406663.html 1、用户模型 “不仅要知道用户当下在想什么,更要知道用户背后在想什么,以及用户正在经历着什么。” 传统用户模型构建方式 用户模型:基于对用户的访谈和观察等研究结果建立,严谨可靠但费时; 阅读全文
posted @ 2020-03-22 20:47 骑者赶路 阅读(399) 评论(0) 推荐(0)
摘要:原文链接 https://www.cnblogs.com/niejingsong/p/11750909.html 1. 不用任何公开参考资料,估算今年新生儿出生数量。 采用两层模型(人群画像x人群转化):新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率(两层模型,具有两个层面的模型。)。 从数 阅读全文
posted @ 2020-03-22 20:46 骑者赶路 阅读(973) 评论(0) 推荐(0)