随笔分类 - 数据分析
摘要:https://blog.csdn.net/qq_20412595/article/details/81771790
阅读全文
摘要:打靶场上来了4个枪手,开始打靶,PIAPIAPIA……一阵枪响,不一会儿,打靶成绩出来了。以下是4位抢手的打靶结果: 不难看出,第一位抢手打的又准,而且稳定性也好,把把命中红星。第二位枪手惨不忍睹,打的又偏,而且又毫无章法。第三位抢手准度一般,好在稳定性还不错,只要提升下准度,还是可以抢救一下。第四
阅读全文
摘要:https://zhuanlan.zhihu.com/p/140040705
阅读全文
摘要:原文为深圳大学的李祖贤 https://zhuanlan.zhihu.com/p/143009353
阅读全文
摘要:一 数值类型 原因:数值类型可能跨度过大,跨几个数量级,不符合模型的前提条件。拟合出来的模型不够强壮。 1 二值化 2 处理长尾分布数量,有两种思路,一种是对数处理,一种是分箱处理。处理的原因还是因为横跨了若干个数量级,对很多模型都是问题。 3 归一化,处理设计欧式距离的算法,比如KNN,K-mea
阅读全文
摘要:def reduce_mem_usage(df): """ iterate through all the columns of a dataframe and modify the data type to reduce memory usage. """ start_mem = df.memor
阅读全文
摘要:https://blog.csdn.net/QimaoRyan/article/details/72861387?locationNum=9&fps=1
阅读全文
摘要:https://blog.csdn.net/maymay_/article/details/80039677
阅读全文
摘要:https://www.cnblogs.com/figo-studypath/p/9772630.html
阅读全文
摘要:一 对数回归 全称为对数几率回归,其它文献也称为 线性回归。 虽然称为回归,但实际是分类算法。 本质是广义线性模型。通过sigmoid函数(联系函数),将回归模型的预测值与分类的真实标记联系起来。 只适用于二分类? 多分类情况 采用 OvO或者OvR策略解决。 类别不平衡问题 采用 再缩放 (res
阅读全文
摘要:一 t检验 计量方面的假设检验方法 前提条件:符合正态分布 1 单样本t检验 2 配对样本t检验 和单样本t检验差不多 总体差值的标准差为0 3 独立两样本t检验 前提条件:凉样本方差齐次 P值的含义 拒绝Ho假设的风险 二 F检验 方差检验 计量资料的假设检验方法 适用于k(k>=2)组的情况。当
阅读全文
摘要:一 分类算法 KNN 神经网络 支持向量机 适用于高维数据 决策树 gini系数 熵系数 二 聚类算法 K-均值 基于原型,划分类型 不适用密度差别大,形状差异大 DBSCAN 基于密度 三 关联方法 apriori 剪枝 支持度 置信度 FR-growth 四 组合方法 bagging 原理:有放
阅读全文
摘要:一 Learning resources 二 Techniques classification clustering assocation rule regression 三 Data Preprocessing 可视化 四 没有最好的算法 五 数据挖掘中的误区 1 数据挖掘只能发现规律,不能创造
阅读全文
摘要:https://blog.csdn.net/weixin_42144636/article/details/81183170
阅读全文
摘要:https://www.cnblogs.com/nnufish/p/9519579.html
阅读全文
摘要:https://zhuanlan.zhihu.com/p/27029515
阅读全文
摘要:原文链接 https://www.cnblogs.com/niejingsong/p/11750802.html 数据分析少不了商业分析思维,以及对业务的理解。很多时候觉得思维不够健全,或者分析没有思路,其实都可以借助思维模型的学习来不足,来加速分析的成功。 之前分享了大V空白女侠的35个经典模型中
阅读全文
摘要:原文链接 https://www.cnblogs.com/niejingsong/p/11406663.html 1、用户模型 “不仅要知道用户当下在想什么,更要知道用户背后在想什么,以及用户正在经历着什么。” 传统用户模型构建方式 用户模型:基于对用户的访谈和观察等研究结果建立,严谨可靠但费时;
阅读全文
摘要:原文链接 https://www.cnblogs.com/niejingsong/p/11750909.html 1. 不用任何公开参考资料,估算今年新生儿出生数量。 采用两层模型(人群画像x人群转化):新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率(两层模型,具有两个层面的模型。)。 从数
阅读全文
浙公网安备 33010602011771号