随笔分类 - 数据挖掘
网课笔记
摘要:聚类 聚类评估算法 Silhouette算法:轮廓系数法 簇内不相似度:$a_i$样本i到同簇其它样本的平均距离 簇间不相似度:$b_i$样本到其它某簇的所有样本的平均距离 定义样本的轮廓系数: \(s(i) = \frac{b_i-a_i}{max\{a_i,b_i\}}\) $s(i) $接近1
阅读全文
摘要:支持度&置信度 \(Support(X\rightarrow Y)=\frac{(X\bigcup Y)}{n}\) \(Confidence(X\rightarrow Y)=\frac{(X\bigcup Y)}{X}\) 因果关系≠关联性 置信度和支持度都是统计出来的条件概率,不能说明全部的问题
阅读全文
摘要:神经网络 神经网络从感知机演化而来,讲的人太多了,看看别人讲的吧,就不重复了 https://blog.csdn.net/xuanwolanxue/article/details/71565934
阅读全文
摘要:  =\frac{P(B|A)·P(A)}{P(B)}\) 我们假设有这样一件事:抛三次硬币,有一个人抛了三次全部都是正面,这就很奇怪了,是不是可能作弊了,还是说真的运气好,贝叶斯在这的应用就是计算作弊的概率有多大。 $P(A
阅读全文
摘要:数据预处理 处理数据缺失 方法 具体措施 忽略 直接删除,简单粗暴,缺失数据少的时候很管用 手动填充 重新收集数据,需要某些领域的专业知识,可行性不高 自动填充 取中位数或者平均数 离群点检测 OUTLIER 世界之大,无奇不有,有时候明显和其他数据格格不入的数据,并不一定是错误的点,比如我们身边平
阅读全文
摘要:导论 数据挖掘,单纯从字面意思理解,可能会存在误区,认为只是像爬虫一样做着简单重复劳动,而这只是冰山一角,更加全面的解释我认为应该是从数据中挖掘到价值和规律。 数据矿——数据集 总结一下数据来源 data.gov 美国政府公开数据集 kaggle open-EI UCI公开数据库 “挖掘机”——数据
阅读全文

浙公网安备 33010602011771号