随笔分类 -  数据分析与挖掘

让数据创造价值
摘要:离群点检测 问题一:如何根据客户的消费记录记录检测是否为异常刷卡消费? 问题二:如何检测是否有异常订单? 这一类问题可以通过异常点来检测 离群点检测是数据挖掘中重要的一部分,它的任务是发现与大部分其他对象显著不同的对象,大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可 阅读全文
posted @ 2019-11-03 18:38 帅爆太阳的男人 阅读(2306) 评论(0) 推荐(0)
摘要:关联规则 关联规则分析是数据挖掘中最活跃的方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来 算法名称 算法描述 Apriori 关联规则最常用也是经典的挖掘频繁项集的算法,其核心思想是通过连接产生候选项及其支持度然后通过剪枝生成频繁项集 FP-Tree 针对 阅读全文
posted @ 2019-11-03 18:28 帅爆太阳的男人 阅读(1972) 评论(0) 推荐(0)
摘要:python分类预测模型的特点 模型 模型特点 位于 SVM 强大的模型,可以用来回归,预测,分类等,而根据选取不同的和函数,模型可以是线性的/非线性的 sklearn.svm 决策树 基于"分类讨论,逐步细化"思想的分类模型,模型直观,易解释 sklearn.tree 朴素贝叶斯 基于概率思想的简 阅读全文
posted @ 2019-11-03 12:56 帅爆太阳的男人 阅读(4331) 评论(0) 推荐(0)
摘要:分类于预测算法评价 分类与预测模型对训练集进行预测而得出得准确率并不能很好得反映预测模型未来得性能,为了有效判断一个预测模型得性能表现,需要一组没有参与预测模型建立得数据集并在该数据集上评价预测模型得准确率,这组独立耳朵数据集叫做测试集,模型预测效果评价,通常用相对绝对误差,平均绝对误差,均方误差, 阅读全文
posted @ 2019-11-03 12:13 帅爆太阳的男人 阅读(1214) 评论(0) 推荐(0)
摘要:人工神经网络 人工神经网络,是模拟生物神经网络进行信息处理的一种数学模型,它对大脑的生理研究成果为基础,其目的在于模拟大脑的某些机理与机制,实现一些特定的功能 1943年, 美国心里学家和数学家联合提出了形式神经元的数学模型MP模型,证明了单个神经元能执行逻辑功能,开创了人工神经网络研究的时代.19 阅读全文
posted @ 2019-11-03 11:43 帅爆太阳的男人 阅读(1071) 评论(0) 推荐(0)
摘要:决策树: 决策树方法在分类,预测,规则等领域有这广泛的应用,20世纪70年代后期和80年代初期,机器学习研究者提出了ID3算法后,决策树在机器学习,数据挖掘领域取得极大的发展,后来又有了c4.5,成为新的监督学习算法.1984年,几位科学家提出了CART分类算法,ID3和CART算法同时被提出,但都 阅读全文
posted @ 2019-10-28 20:27 帅爆太阳的男人 阅读(330) 评论(0) 推荐(0)
摘要:挖掘建模 经过数据探索于数据预处理,得到了可以直接建模的数据..根据挖掘目标和数据形式可以建立分类与预测,聚类分析,关联规则,时序模式和偏差检测等模型.帮助企业提取数据汇总蕴含得商业价值,提高企业得竞争力. 分类和预测问题得两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数 阅读全文
posted @ 2019-10-28 20:20 帅爆太阳的男人 阅读(299) 评论(0) 推荐(0)
摘要:数据规约 再大数据集上进行复杂得数据分析和挖掘需要很长得时间,数据规约产生更小但保持原数据完整性得新数据集,再规约后得数据集上进行分析和挖掘将更有效率 数据规约得意义 降低无效,错误数据对建模得影响,提高建模得准确性 少量且具有代表性得数据将大幅缩减数据挖掘所需得时间 降低存储数据得成本 属性规约 阅读全文
posted @ 2019-10-28 13:03 帅爆太阳的男人 阅读(2790) 评论(0) 推荐(0)
摘要:数据的变换 数据变换主要是对数据进行规范化处理,将数据转换成"适当的"形式,以适用于挖掘任务及算法的需求. 简单的函数变换:是对原始数据进行某些函数变换,常用的变换包括平方,开方,取对数,差分运算等 简单的函数变换常用来将不具有正太分布的数据变换成具有正太分布的数据.在时间序列分析中,有时简单的对数 阅读全文
posted @ 2019-10-27 11:23 帅爆太阳的男人 阅读(1497) 评论(0) 推荐(0)
摘要:数据的预处理 数据预处理的主要内容包括数据的清洗,数据的集成,数据的变换,数据的规约. 数据清洗:数据的清洗主要是删除原始数据集中的无关数据,重复数据,平滑噪声数据,筛选掉与挖掘主体无关的数据,处理缺失值,异常值. 缺失值的处理:缺失值的处理分为3种方式:删除记录,数据补差,和不处理 数据补插方式: 阅读全文
posted @ 2019-10-27 11:03 帅爆太阳的男人 阅读(477) 评论(0) 推荐(0)
摘要:在数据分析中,Python的主要探索函数 Python中主要用于书探索的是pandas(数据分析)和matplotlib(数据可视化).其中pandas提供了大量的数据探索的工具与数据相关的函数,这些数据探索可大致分为统计特征函数与统计作图函数,而作图函数依赖于mayplotlib,所以往往又会跟m 阅读全文
posted @ 2019-10-27 10:51 帅爆太阳的男人 阅读(589) 评论(0) 推荐(0)
摘要:定性分析 对于定性变量,常常根据变量的分类类型来分组,可以采用饼图或者条形图来描述定性变量的分布,饼图的每一个类型的百分比或频数,根据定性变量的类型数目将饼图分成几个部分,每一个部分的大小与每一类型频数成正比;条形图的高度代表每一类型的百分数或频率,条形图的宽度没有意义. 对比分析 对比分析是指把两 阅读全文
posted @ 2019-10-20 22:30 帅爆太阳的男人 阅读(654) 评论(0) 推荐(0)
摘要:1,数据质量分析 数据质量分析是数据挖掘中数据准备环节中的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁 数据质量分析的主要任务时检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应的分析的数据。脏数据一般 阅读全文
posted @ 2019-06-07 16:01 帅爆太阳的男人 阅读(249) 评论(0) 推荐(0)
摘要:1,Python作为一门编程语言开发效率快,运行效率被人诟病,但是Python核心部分使用c/c++等更高效的语言来编写的还有强大的numpy, padnas, matplotlib,scipy库等应用,在一定程度上解决了Python的运行效率问题 2,搭建Python开发平台 .555566660 阅读全文
posted @ 2019-04-19 21:05 帅爆太阳的男人 阅读(530) 评论(0) 推荐(0)
摘要:1数据挖掘: 从数据中"淘金",从大量数据(包括文本)中挖掘出,隐含的,未知的,对决策有潜在价值的关系,模式和趋势 ,并用这些 知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,就是数据挖掘。 2,数据挖掘的基本任务 数据额度挖掘基本任务包括分类与预测、聚类分析、关联规则 、时 阅读全文
posted @ 2019-04-13 20:49 帅爆太阳的男人 阅读(714) 评论(0) 推荐(0)