上一页 1 2 3 4 5 6 7 8 9 ··· 17 下一页
摘要: 数据规约 再大数据集上进行复杂得数据分析和挖掘需要很长得时间,数据规约产生更小但保持原数据完整性得新数据集,再规约后得数据集上进行分析和挖掘将更有效率 数据规约得意义 降低无效,错误数据对建模得影响,提高建模得准确性 少量且具有代表性得数据将大幅缩减数据挖掘所需得时间 降低存储数据得成本 属性规约 阅读全文
posted @ 2019-10-28 13:03 帅爆太阳的男人 阅读(2798) 评论(0) 推荐(0)
摘要: 数据的变换 数据变换主要是对数据进行规范化处理,将数据转换成"适当的"形式,以适用于挖掘任务及算法的需求. 简单的函数变换:是对原始数据进行某些函数变换,常用的变换包括平方,开方,取对数,差分运算等 简单的函数变换常用来将不具有正太分布的数据变换成具有正太分布的数据.在时间序列分析中,有时简单的对数 阅读全文
posted @ 2019-10-27 11:23 帅爆太阳的男人 阅读(1502) 评论(0) 推荐(0)
摘要: 数据的预处理 数据预处理的主要内容包括数据的清洗,数据的集成,数据的变换,数据的规约. 数据清洗:数据的清洗主要是删除原始数据集中的无关数据,重复数据,平滑噪声数据,筛选掉与挖掘主体无关的数据,处理缺失值,异常值. 缺失值的处理:缺失值的处理分为3种方式:删除记录,数据补差,和不处理 数据补插方式: 阅读全文
posted @ 2019-10-27 11:03 帅爆太阳的男人 阅读(478) 评论(0) 推荐(0)
摘要: 在数据分析中,Python的主要探索函数 Python中主要用于书探索的是pandas(数据分析)和matplotlib(数据可视化).其中pandas提供了大量的数据探索的工具与数据相关的函数,这些数据探索可大致分为统计特征函数与统计作图函数,而作图函数依赖于mayplotlib,所以往往又会跟m 阅读全文
posted @ 2019-10-27 10:51 帅爆太阳的男人 阅读(591) 评论(0) 推荐(0)
摘要: 定性分析 对于定性变量,常常根据变量的分类类型来分组,可以采用饼图或者条形图来描述定性变量的分布,饼图的每一个类型的百分比或频数,根据定性变量的类型数目将饼图分成几个部分,每一个部分的大小与每一类型频数成正比;条形图的高度代表每一类型的百分数或频率,条形图的宽度没有意义. 对比分析 对比分析是指把两 阅读全文
posted @ 2019-10-20 22:30 帅爆太阳的男人 阅读(656) 评论(0) 推荐(0)
摘要: 需求:每日hadoop结果文件中,找出数据不完整的日期和没有跑出数据的日期,重新进行跑hadoop任务 小结:当然这个也是调试的时候用的,不过真正,你要根据自己的需求去做,这时,忽然在我的脑子里出现了一个demo侠的名称,因为之前,我看了一篇我们公司内部的写的文章,学习分为几个阶段吧,因为我之前也没 阅读全文
posted @ 2019-06-07 16:06 帅爆太阳的男人 阅读(527) 评论(0) 推荐(0)
摘要: 1,shell脚本的变量认识 注释:$*和$@的区别: $*和$@都表示传递给函数或脚本的的所有的参数,不被双引号(“ ”)包含时,都以$1,$2,$3。。。$n的形式输出所有参数,但他们被双引号(“ ”)时,$*会将所有参数作为一个整体,以“$1, $2,$3...$n”的形式输出,$@会将各个参 阅读全文
posted @ 2019-06-07 16:05 帅爆太阳的男人 阅读(222) 评论(0) 推荐(0)
摘要: 1,hadoop:由Apache基金会所开发的分布式系统基础架构。 2,hadoop特点: 是一个分布式系统权限,有高容错性的特点,并且用来设计部署在低廉的硬件上,而且它提高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用 3,hadoop框架的核心设计: HDFS和mapreduse。HD 阅读全文
posted @ 2019-06-07 16:04 帅爆太阳的男人 阅读(322) 评论(0) 推荐(0)
摘要: 1,数据质量分析 数据质量分析是数据挖掘中数据准备环节中的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁 数据质量分析的主要任务时检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应的分析的数据。脏数据一般 阅读全文
posted @ 2019-06-07 16:01 帅爆太阳的男人 阅读(250) 评论(0) 推荐(0)
摘要: 1,Python作为一门编程语言开发效率快,运行效率被人诟病,但是Python核心部分使用c/c++等更高效的语言来编写的还有强大的numpy, padnas, matplotlib,scipy库等应用,在一定程度上解决了Python的运行效率问题 2,搭建Python开发平台 .555566660 阅读全文
posted @ 2019-04-19 21:05 帅爆太阳的男人 阅读(531) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 ··· 17 下一页