06 2018 档案

摘要:贝叶斯公式 条件概率的展开、转化 关联规则分析 支持度、置信度、提升度 KULC IR 聚类 聚类之间类的度量是分距离和相似系数来度量的 距离 距离用来度量样品之间的相似性(k means聚类,系统聚类中的Q型聚类) 相似系数 相似系数用来度量变量之间的相似性(系统聚类的R型聚类) 最常用的是k m 阅读全文
posted @ 2018-06-30 00:53 歪胡子的日常 阅读(928) 评论(0) 推荐(0)
摘要:csv文件在数据分析方面应用非常广泛,但是有的时候我们获取的是xls或者xlsx文件,这时我们需要处理一下。 见下面的程序: 以上程序就可以得到csv文件,并转为DataFrame格式。 如果从网上下载后利用这段程序发现出现“Workbook corruption: seen[3] == 4”这种错 阅读全文
posted @ 2018-06-13 01:56 歪胡子的日常 阅读(815) 评论(0) 推荐(0)
摘要:在数据的预处理中经常会遇到特征工程,这里做一下笔记。 数据的拼接 特征工程最好针对所有数据,也就是训练集和测试集都要进行特征工程的处理,因此第一步可以是将两个数据集拼接,注意要处理好index的关系。 可以使用pandas的concat函数,如 拼接完后去掉train数据集中的标签值,因为这一项我们 阅读全文
posted @ 2018-06-05 13:54 歪胡子的日常 阅读(1207) 评论(0) 推荐(0)
摘要:##组合查询 SQL允许执行多个查询(多条SELECT语句),并将结果作为一个查询结果输出。组合查询通常称为并(union)或复合查询。 有两种情况需要使用组合查询: 1、在一个查询中从不同的表返回结构数据 2、对一个表执行多个查询,按一个查询返回数据。 例子: SELECT cust_name,c 阅读全文
posted @ 2018-06-03 01:33 歪胡子的日常 阅读(166) 评论(0) 推荐(0)