随笔分类 -  数据挖掘

数据挖掘库:Pandas、numpy、matplotlib 数据挖掘算法:《机器学习实战》
摘要:特征选择 阅读全文
posted @ 2020-12-18 22:17 vlj 阅读(141) 评论(0) 推荐(0)
摘要:使用sklearn进行交叉验证 GroupKFold-小记 阅读全文
posted @ 2020-12-18 22:16 vlj 阅读(262) 评论(0) 推荐(0)
摘要:数据库系统需求分析的工具很多,常用的工具有数据流程图、数据字典、判定表、判定树、结构化自然语言、伪代码、层次方框图、Warnier图、IPO(Input、Process、Output,输入、处理、输出)图、统一建模语言(Unified Modeling Language,UML)等。 阅读全文
posted @ 2020-04-22 10:54 vlj 阅读(7672) 评论(0) 推荐(0)
摘要:脏数据的主要特征是不完整、不一致和重复 阅读全文
posted @ 2020-03-30 14:36 vlj 阅读(486) 评论(0) 推荐(0)
摘要:​ 重点:理解增广路和取反 1. 匈牙利算法 求解目标:找到二分图的最大匹配 整体思路:每一步寻找一条增广路径,取反 2. 关键步骤 二分图的顶点分为左边点集X和右边点集Y,假定遍历的点集是X。对于每一次迭代的点x_i, 搜索增广路径:遍历x_i的邻接节点y_j 如果y_j未匹配,则找到增广路 如果 阅读全文
posted @ 2020-03-03 23:57 vlj 阅读(2956) 评论(0) 推荐(0)
摘要:多叉分类树 ​ 下面实现的分类树只限于特征是 离散变量 ,而连续变量不能处理。另外,西瓜书介绍的 缺失值的处理 、 多变量处理 均未实现。下面实现的树有一个共同的特点,它的分支依据都是一个具体的特征取值,且每次特征选择之后都要 删除特征 。 一、python实现 ​ 我使用python的类实现多分叉 阅读全文
posted @ 2019-07-20 21:18 vlj 阅读(5158) 评论(2) 推荐(0)
摘要:更好看的排版,跳转:https://www.yuque.com/u86460/osqfxm/mbtq5w#5dc99f6e 问题 更好看的排版,跳转:https://www.yuque.com/u86460/osqfxm/mbtq5w#5dc99f6e 问题 更好看的排版,跳转:https://ww 阅读全文
posted @ 2019-04-13 01:02 vlj 阅读(6108) 评论(0) 推荐(0)
摘要:统计数据:pd.describe() · 缺失值:df.isnull() #df就是加载进来的数据,DataFrame类型的 ·异常值: 箱型图模型 画图 ·分布: 核密度估计:sns.kdeplot() 直方图图:sns.distplot() 判断方法:df.info() 分类: 连续型(cont 阅读全文
posted @ 2019-04-01 21:22 vlj 阅读(561) 评论(0) 推荐(0)
摘要:数据 标称型和数值型 算法 归一化处理:防止数值较大的特征对距离产生较大影响 计算欧式距离:测试样本与训练集 排序:选取前k个距离,统计频数(出现次数)最多的类别 1 def classify0(inX, dataSet, labels, k): 2 ''' 3 4 :param inX: 测试样本 阅读全文
posted @ 2019-03-12 22:29 vlj 阅读(946) 评论(0) 推荐(0)