10 2019 档案

摘要:决策树: 决策树方法在分类,预测,规则等领域有这广泛的应用,20世纪70年代后期和80年代初期,机器学习研究者提出了ID3算法后,决策树在机器学习,数据挖掘领域取得极大的发展,后来又有了c4.5,成为新的监督学习算法.1984年,几位科学家提出了CART分类算法,ID3和CART算法同时被提出,但都 阅读全文
posted @ 2019-10-28 20:27 帅爆太阳的男人 阅读(330) 评论(0) 推荐(0)
摘要:挖掘建模 经过数据探索于数据预处理,得到了可以直接建模的数据..根据挖掘目标和数据形式可以建立分类与预测,聚类分析,关联规则,时序模式和偏差检测等模型.帮助企业提取数据汇总蕴含得商业价值,提高企业得竞争力. 分类和预测问题得两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数 阅读全文
posted @ 2019-10-28 20:20 帅爆太阳的男人 阅读(298) 评论(0) 推荐(0)
摘要:数据规约 再大数据集上进行复杂得数据分析和挖掘需要很长得时间,数据规约产生更小但保持原数据完整性得新数据集,再规约后得数据集上进行分析和挖掘将更有效率 数据规约得意义 降低无效,错误数据对建模得影响,提高建模得准确性 少量且具有代表性得数据将大幅缩减数据挖掘所需得时间 降低存储数据得成本 属性规约 阅读全文
posted @ 2019-10-28 13:03 帅爆太阳的男人 阅读(2790) 评论(0) 推荐(0)
摘要:数据的变换 数据变换主要是对数据进行规范化处理,将数据转换成"适当的"形式,以适用于挖掘任务及算法的需求. 简单的函数变换:是对原始数据进行某些函数变换,常用的变换包括平方,开方,取对数,差分运算等 简单的函数变换常用来将不具有正太分布的数据变换成具有正太分布的数据.在时间序列分析中,有时简单的对数 阅读全文
posted @ 2019-10-27 11:23 帅爆太阳的男人 阅读(1497) 评论(0) 推荐(0)
摘要:数据的预处理 数据预处理的主要内容包括数据的清洗,数据的集成,数据的变换,数据的规约. 数据清洗:数据的清洗主要是删除原始数据集中的无关数据,重复数据,平滑噪声数据,筛选掉与挖掘主体无关的数据,处理缺失值,异常值. 缺失值的处理:缺失值的处理分为3种方式:删除记录,数据补差,和不处理 数据补插方式: 阅读全文
posted @ 2019-10-27 11:03 帅爆太阳的男人 阅读(477) 评论(0) 推荐(0)
摘要:在数据分析中,Python的主要探索函数 Python中主要用于书探索的是pandas(数据分析)和matplotlib(数据可视化).其中pandas提供了大量的数据探索的工具与数据相关的函数,这些数据探索可大致分为统计特征函数与统计作图函数,而作图函数依赖于mayplotlib,所以往往又会跟m 阅读全文
posted @ 2019-10-27 10:51 帅爆太阳的男人 阅读(589) 评论(0) 推荐(0)
摘要:定性分析 对于定性变量,常常根据变量的分类类型来分组,可以采用饼图或者条形图来描述定性变量的分布,饼图的每一个类型的百分比或频数,根据定性变量的类型数目将饼图分成几个部分,每一个部分的大小与每一类型频数成正比;条形图的高度代表每一类型的百分数或频率,条形图的宽度没有意义. 对比分析 对比分析是指把两 阅读全文
posted @ 2019-10-20 22:30 帅爆太阳的男人 阅读(654) 评论(0) 推荐(0)