随笔分类 - 数据科学
摘要:书接上回,在上一篇博客中完成了数据的降维分析,这里在降维后的基础上继续进行聚类分析,使用前2个PC进行KMeans据类并可视化。 from sklearn.cluster import KMeans from collections import Counter # 语言定义颜色和画布 colors
阅读全文
摘要:数据来源: 从这篇博客中借用下,百度云网页端居然可以直接下载文件了,稀奇 数据已经分享在百度云:客户年消费数据 密码:lehv 该份数据中包含客户id和客户6种商品的年消费额,共有440个样本 分析过程: 用python和R做个简单的PCA分析,顺便比较下结果是不是一致 numpy计算结果: imp
阅读全文
摘要:秩和检验: 用于比较两组独立样本的中位数是否有明显差异。它不需要对数据的分布进行任何假设,适用于任何两组样本大小相等或不等、符合连续性变量的情况。 在进行 Mann-Whitney U 检验时,需要根据研究问题确定备择假设类型来选择使用双侧检验还是单侧检验。 如果没有明确的预测或假设关于哪个样本的中
阅读全文
摘要:python 卡方检验 from scipy.stats import chisquare # 卡方检验包 import numpy as np observed = np.array([120,80]) # 观测值:200 人中吃香菜的男生120,女生80 expected = np.array(
阅读全文

浙公网安备 33010602011771号