随笔分类 - 数据挖掘
数据挖掘库:Pandas、numpy、matplotlib
数据挖掘算法:《机器学习实战》
摘要:使用sklearn进行交叉验证 GroupKFold-小记
阅读全文
摘要:数据库系统需求分析的工具很多,常用的工具有数据流程图、数据字典、判定表、判定树、结构化自然语言、伪代码、层次方框图、Warnier图、IPO(Input、Process、Output,输入、处理、输出)图、统一建模语言(Unified Modeling Language,UML)等。
阅读全文
摘要: 重点:理解增广路和取反 1. 匈牙利算法 求解目标:找到二分图的最大匹配 整体思路:每一步寻找一条增广路径,取反 2. 关键步骤 二分图的顶点分为左边点集X和右边点集Y,假定遍历的点集是X。对于每一次迭代的点x_i, 搜索增广路径:遍历x_i的邻接节点y_j 如果y_j未匹配,则找到增广路 如果
阅读全文
摘要:多叉分类树 下面实现的分类树只限于特征是 离散变量 ,而连续变量不能处理。另外,西瓜书介绍的 缺失值的处理 、 多变量处理 均未实现。下面实现的树有一个共同的特点,它的分支依据都是一个具体的特征取值,且每次特征选择之后都要 删除特征 。 一、python实现 我使用python的类实现多分叉
阅读全文
摘要:更好看的排版,跳转:https://www.yuque.com/u86460/osqfxm/mbtq5w#5dc99f6e 问题 更好看的排版,跳转:https://www.yuque.com/u86460/osqfxm/mbtq5w#5dc99f6e 问题 更好看的排版,跳转:https://ww
阅读全文
摘要:统计数据:pd.describe() · 缺失值:df.isnull() #df就是加载进来的数据,DataFrame类型的 ·异常值: 箱型图模型 画图 ·分布: 核密度估计:sns.kdeplot() 直方图图:sns.distplot() 判断方法:df.info() 分类: 连续型(cont
阅读全文
摘要:数据 标称型和数值型 算法 归一化处理:防止数值较大的特征对距离产生较大影响 计算欧式距离:测试样本与训练集 排序:选取前k个距离,统计频数(出现次数)最多的类别 1 def classify0(inX, dataSet, labels, k): 2 ''' 3 4 :param inX: 测试样本
阅读全文

浙公网安备 33010602011771号