随笔分类 -  R语言数据挖掘

摘要:第十章、文本与网络数据挖掘 概述: 对于文本挖掘,半结构化和非结构化文档是最主要的数据集。文本挖掘有几个主要的类型,比如聚类、文档检索与表示,以及异常检测,文本挖掘的应用包括,但不局限于,话题追踪、文本总结与分类。对于网络挖掘,网络内容、结构和使用挖掘是网络挖掘的一个重要应用。网络挖掘也可以用于用户 阅读全文
posted @ 2019-09-29 20:45 Nelson_software 阅读(358) 评论(0) 推荐(0)
摘要:第九章、图挖掘与网络分析 概述:分组、短信、约会及许多其他方式是社会交往或者社交网络中经典社交行为的主要形式。所有这些概念都用图来建模,即节点、边和其他属性。图挖掘用来挖掘此类信息,类似于其他类型的信息,比如生物信息等。 1.图挖掘 1.1 图 图G包含节点V和边E,图可用方程G=(V,E)表示。有 阅读全文
posted @ 2019-09-28 16:53 Nelson_software 阅读(499) 评论(0) 推荐(0)
摘要:第八章、流数据、时间序列数据和序列数据挖掘 流数据、时间序列、和序列数据的特征是与众不同的,即数据量大且无尽的。他们数据量太大不能获得精确的结果,这意味着将得到一个近似的结果。因此,应该扩展经典的数据挖掘算法或者为这类型数据集设计一种新的算法。 1.信用卡交易数据流和STREAM算法 一种数据源总是 阅读全文
posted @ 2019-09-28 15:26 Nelson_software 阅读(469) 评论(0) 推荐(0)
摘要:第七章、异常值检测(离群点挖掘) 概述: 一般来说,异常值出现有各种原因,比如数据集因为数据来自不同的类、数据测量系统误差而收到损害。根据异常值的检测,异常值与原始数据集中的常规数据显著不同。开发了多种解决方案来检测他们,其中包括基于模型的方法(Model-based method)【也叫基于统计分 阅读全文
posted @ 2019-09-27 21:20 Nelson_software 阅读(1827) 评论(0) 推荐(0)
摘要:第六章、高级聚类算法 1. DBSCAN算法和电子商务客户分类分析 1.1DBSCAN算法 通过定义数据点空间的密度和密度度量,这些类可以建模成数据空间中具有某种密度的截面。 在有噪声的情况下基于密度的空间聚类应用算法(Density Based Spatial Clustering of Appl 阅读全文
posted @ 2019-09-25 10:48 Nelson_software 阅读(1287) 评论(0) 推荐(0)
摘要:第五章、聚类分析 0. 聚类算法的系统性介绍 聚类被定义为一个数据集的无监督分类。聚类算法的目的是使用距离或者概率度量对给定数据集(点集或者对象的集合)划分成数据实例或者对象(点)的组。根据距离或相似性或其他度量,同一个组中的成员比较接近。换言之,就是最大化类内(内部同质性)的相似性并最小化类间(外 阅读全文
posted @ 2019-09-25 10:37 Nelson_software 阅读(985) 评论(0) 推荐(0)
摘要:第四章、高级分类算法 1. 集成方法(策略:模型平均) 为了提升分类的准确率,提出了集成方法(EM) 集成方法就是基于多个基础分类器来构建组合的分类器(每个基学习器都犯不同的错误,综合起来犯错的可能性不大) 每个基础分类器的训练过程基于不同的数据集成或者是对源是训练数据集进行又放回的抽样得到的训练数 阅读全文
posted @ 2019-09-25 10:30 Nelson_software 阅读(590) 评论(0) 推荐(0)
摘要:第三章、分类 1.分类(相当于构建一个分类器) 1.1 分类的基本介绍: 给定一个预定义的类标签集合,分类的任务是使用分类器的训练模型,为输入数据集的每个数据对象分配一个标签。通常,输入可能是离散值,也可能是连续值,但输出是离散二进制值或者名义数值等。分类算法通常描述为学习模型或函数。 f(x,y) 阅读全文
posted @ 2019-09-24 23:44 Nelson_software 阅读(781) 评论(0) 推荐(0)
摘要:第二章、频繁模式、关联规则和相关规则挖掘 关联规则挖掘算法可以从多种数据类型中发现频繁项集,包括数值数据和分类数据,基础算法有Apriori算法和FP-Growth算法。 1.关联模式和关联规则 1.1 模式和模式发现(频繁模式可以有以下几种形式) 1.1.1频繁项集 项集:项集就是项的集合,例如: 阅读全文
posted @ 2019-09-24 18:32 Nelson_software 阅读(1367) 评论(0) 推荐(0)
摘要:写在前面:此系列文章以《R语言数据挖掘》为主线,记录自己学习数据挖掘和算法的过程。 还引用了大量前辈的博客总结,先谢过。 第一章、预备知识 1.大数据 2.数据源 3.数据挖掘 数据挖掘算法与数据结构算法对比: https://www.cnblogs.com/Alear/p/10840230.htm 阅读全文
posted @ 2019-09-24 11:37 Nelson_software 阅读(227) 评论(0) 推荐(0)