顶尖数据挖掘辅助教学套件(TipDM-T6)产品白皮书

 

 

 

顶尖数据挖掘辅助教学套件

(TipDM-T6)

 

 

 

 

 

产  品  说  明  书

广州泰迪智能科技有限公司 版权所有

地址: 广州市经济技术开发区科学城232号

网址: http://www.tipdm.com

邮箱: services@tipdm.com

热线: 40068-40020

企业QQ:40068-40020

邮编: 510663

电话: (020)82039399

 

目  录

1                     引言............................................................................................................... 3

1.1             数据挖掘前景.............................................................................................. 3

1.2             高校数据挖掘人才培养及高校科研现状....................................................... 3

2                     产品介绍........................................................................................................ 4

2.1             数据挖掘辅助教学套件................................................................................ 4

2.2             适用对象..................................................................................................... 4

3                     产品构成........................................................................................................ 5

3.1             数据挖掘辅助教学软件................................................................................ 5

3.1.1      软件功能....................................................................................... 5

3.1.2      软件界面...................................................................................... 11

3.1.3      运行环境...................................................................................... 12

3.2             数据挖掘辅助教学多媒体软件................................................................... 12

3.3             数据挖掘辅助教学PPT.............................................................................. 15

3.4             数据挖掘辅助教学实训教程....................................................................... 16

3.5             数据挖掘辅助教学案例库.......................................................................... 18

3.6             云服务器(可选)..................................................................................... 18

4                     产品特点...................................................................................................... 19

4.1             教师轻松教,学生轻松学.......................................................................... 19

4.2             根据需要,灵活定制课件内容................................................................... 19

4.3             操作简单,维护方便................................................................................. 19

 

 

1   引言

1.1  数据挖掘前景

数据挖掘技术近年来越来越受到人们的重视,被认为是21世纪最具有发展前途的领域,当前数据挖掘技术已广泛应用在电信、零售、农业、网络、银行、电力、生物、天体、化工、医药等方面。随着中国企业信息化水平的不断提高,商务智能作为支持企业决策的重要手段,逐渐被很多企业所采用,社会对数据挖掘人才的需求持续增长。特别是有实践经验的数据挖掘人才更是各企业争夺的热门。为了满足日益增长的数据挖掘人才需求,很多大学都在开设不同程度的商务智能课程。“数据挖掘”作为商务智能的核心技术,已经成为许多高校计算机、软件工程等专业的重要课程之一。

随着我国高等教育结构的调整和规模的扩大,我国高等教育已经迈入大众化教育阶段,而科研工作也已成为高校除人才培养之外所承担的又一项重要工作,高校的科研活动和科研能力日益成为高校综合实力表征的重要指标之一。

1.2  高校数据挖掘人才培养及高校科研现状

国内不少高校在自动化、电子信息、金融等专业开设了数据挖掘技术相关的课程。由于条件和学时所限,这些内容的教学主要限于理论介绍。因为抽象,学生理解起来往往比较困难,教学效果不甚理想。基于以上原因,本公司推出了适合高校教学的数据挖掘教学套件,该套件除了提供数据挖掘建模软件,同时协助教师构建特定专业的预测模型及编写相应实验指导书。

²  高校数据挖掘人才培养需求

目前,数据挖掘有关的书籍已经很多,但数据挖掘这门课程既强调深入的算法理论,又强调实际应用,因此,要真正讲好这门课,让学生既能掌握必要的理论基础,又能将数据挖掘理论和方法用于解决实际问题,对授课教师而言都有一定的难度。虽然国外已经有数据挖掘的商业软件,但通常是面向大型企业应用的,而且价格都比较昂贵,使很多大学不能建立有效的教学实习环境,缺乏相应的实验教材和讲义,导致数据挖掘课程的教学大多只能以讲解原理为主,实验环节非常薄弱,造成学生缺少数据挖掘实践经验、缺乏实践应用能力。因此高校迫切需要一款适合自己的,具有丰富数据挖掘实际应用案例的,以提高学员数据挖掘实际应用和动手能力为目的,寓教于学的高校数据挖掘教学套件。

²  高校科研需求

许多高校为了更好地对学校科研工作进行管理,纷纷开发了适应自身特点的科研业务管理系统,并在使用过程中积累了大量的科研信息数据。但是,大多科研业务管理系统并没有对这些数据进行深入分析,对数据所隐藏的价值并没有充分挖掘利用。同样需要数据挖掘工具深挖科研信息的价值。

 

2   产品介绍

2.1  数据挖掘辅助教学套件

数据挖掘辅助教学套件是广州泰迪智能科技有限公司专门针对高校数据挖掘课程教学的实际情况,针对实验环节薄弱,学员实际应用能力差这一教学弱点设计开发的一系列教学套件。能够让老师在讲解数据挖掘算法理论的同时,通过实用的建模工具来模拟实际应用案例,同时采用软件辅助教学后,参加听课的学员可以很容易在教学实验室部署实验环境(我们能够为学员提供相应的多媒体软件、上机实验教材等,指导学生实践数据挖掘实际操作),在实验室环境下模拟实际应用,由此弥补学员实践经验的不足。在教学过程中,强化应用和实验,做到理论与实践的有机结合,使学生受益,老师授课方便。

顶尖数据挖掘辅助教学套件(TipDM-T6,简称T6)主要包含以下内容:

²  数据挖掘辅助教学建模软件

²  数据挖掘辅助教学多媒体软件

²  数据挖掘辅助教学PPT

²  数据挖掘辅助教学实训教程

²  数据挖掘辅助教学案例库

²  云服务器(可选)

2.2  适用对象

²  有数据挖掘相关课程教学的高校、研究所和培训机构

²  用数据挖掘进行科研的高校、研究所

特别说明:提供数据挖掘建模软件,同时协助和指导教师构建特定专业的预测模型及编写相应实验指导书。

 

3     产品构成

  1. 1.       
  2. 2.       
  3. 3.       

3.1.       

3.1  数据挖掘辅助教学软件

数据挖掘辅助教学软件采用广州泰迪智能科技有限公司花费数年时间自主研发的一个数据挖掘平台——顶尖数据挖掘平台(TipDM)。该软件使用JAVA语言开发,能从各种数据源获取数据,建立各种不同的数据挖掘模型。系统支持数据挖掘流程所需的主要过程,并提供开放的应用接口和常用算法,能够满足各种复杂的应用需求。2010年初“顶尖数据挖掘平台(TipDM)”通过了由广州赛宝软件评测中心的功能和性能测试。现产品在广东省电信规划设计院、珠江水产研究所、华南师范大学、广东中医药大学、武汉理工大学、广东工业大学、韩山师范学院、番禺职业技术学院、交通运输部公路科学研究院等单位成功试用,受到用户的赞许与肯定。

顶尖数据挖掘平台(TipDM)应用非常广泛,能够模拟以下众多方向的应用:

 

学生可以根据数据挖掘课程需要在(TipDM)软件平台上模拟各种数据挖掘实际应用,快速提高数据挖掘实践能力,增加数据挖掘应用经验。

顶尖数据挖掘平台(TipDM)包含了目前主流的各类算法,方便学员寓教于学,快速理解和学习算法,并可以在平台上进行算法对比,下面是顶尖数据挖掘平台(TipDM)主要算法功能:

3.1.1  软件功能

  1. 1.  数据探索及预处理

数据探索是对导入系统中的数据进行初步研究,以便更好地理解它的特殊性质,有助于选择合适的数据预处理和数据分析技术。

模型预测的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证预测质量打下基础。

算法名称

算法描述

相关性分析

相关性分析是考察两个变量之间相互关系的方向和程度的一种统计分析方法。更精确地说,当一个变量发生变化时,另一个变量如何变化,此时就需要通过计算相关系数来做深入的定量考察。当然,还有其他类型的相关系数用于测量两个以上变量之间的关系,如多元回归等。

主成分分析

主成分析分析(PCA)是指用几个较少的综合指标来代替原来较多的指标,而这些较少的综合指标既能尽可能多地反映原来较多指标的有用信息,且相互之间又是无关的。

周期性分析

分析数据变化过程中,某些特征重复出现,连续的两次出现的客观规律。在时序预测时,经常要对样本数据进行周期性分析,以更好地理解样本数据变化的特点,为时序预测分析提供指导依据。

缺失值处理

样本数据中经常存在一些缺失值,在进行预测建模前,需要对缺失值按照某些规则进行处理。处理方法主要有:1)删除;2)数据补齐(人工填写、平均值填充、特殊值填充、热卡填充、 K最近距离邻法、回归、期望值最大化方法等)。

坏数据处理

如果抽取数据中存在坏数据(脏数据),则需要对坏数据进行预处理。通常的做法是采用绝对均值法或莱因达法等对样本中的坏点数据进行剔除处理。

属性选择

由给定的属性构造或添加新的属性,以帮助提高精度和对高维数据结构的理解,是具有最佳预测准确率的子集。

数据规约

将属性数据按比例缩放,使之落入到一个小的特定区间。找出最小属性集合,使得数据类的概率分布尽可能地接近使用所有属性的原分布。

离散处理

离散化技术用来减少给定连续属性的个数,这个过程通常是递归的,而且大量时间花在排序上。对于给定的数值属性,概念分层定义了该属性的一个离散化的值。

特征提取

主要对图像、声音、信号等数据源,通过图像处理、小波变换等建立一组新的、更紧凑的属性来表示数据的过程。如图像特征提取是指根据图像特征,提取反映图像本质的一些关键指标,以达到自动进行图像识别或分类的目的。

   

说明:版本不断更新,更多算法详见:www.tipdm.cn

 

  1. 2.  分类与回归

分类是数据挖掘中应用得最多的方法。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。

回归是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。

分类与回归算法主要有:

l  贝叶斯:朴素贝叶斯网络、贝叶斯信念网络

l  决策树及表:决策表、CART决策树、ID3决策树、C4.5决策树

l  神经网络:BP神经网络、LM神经网络、RBF神经网络、FNN神经网络、ANFIS神经网络、WNN神经网络

l  回归分析:线性回归、逐步回归、逻辑回归、保序回归

l  其它算法:AdaBoostM1算法、KStar算法、SVM支持向量机、K-最近邻分类

 

主要算法介绍:

算法名称

算法描述

输出示例

BP

神经网络

BP(Back Propagation)神经网络是是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。

 

LM

神经网络

Levenberg-Marquardt是基于梯度下降法和牛顿法结合的优化算法,特点:迭代次数少,收敛速度快,精确度高。

 

FNN

模糊神经网络

模糊神经网络(Fuzzy Neural Network,FNN)是具有模糊权系数或者输入信号是模糊量的神经网络,是模糊系统与神经网络相结合的产物,它汇聚了神经网络与模糊系统的优点

 

RBF

径向基神经网络

径向基函数(Radial Basis Function, RBF)神经网络是具有单隐层的三层前馈网络。它是一种局部逼近网络,能够以任意精度逼近任意连续函数,特别适合于解决分类问题。

 

ANFIS

自适应神经模糊推理系统

自适应神经模糊推理系统(Adaptive Neural Fuzzy Inference System,ANFIS)是功能上与一阶T-S模糊推理系统等价的自适应网络,它是将神经网络的学习机制引入模糊系统,构成一个带有人类感觉和认知成分的自适应系统。

 

WNN

小波神经网络

小波神经网络(Wavelet Neural Network,WNN)是基于小波变换而构成的神经网络模型,即用非线性小波基取代通常的神经元非线性激励函数(如Sigmoid函数),把小波变换与神经网络有机地结合起来,充分继承了两者的优点。

 

SVM支持向量机

支持向量机是V.Vapnik等人在研究统计学习理论的基础上发展起来的一种新的机器学习算法,它在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。支持向量机根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的推广能力。

 

CART决策树

分类与回归树(classification and regression tree,CART),是一种十分有效的非参数分类和回归方法,通过构建树、修剪树、评估树来构建一个二叉树。

 
     

 

说明:版本不断更新,更多算法详见:www.tipdm.cn

 

  1. 3.  时序模式

时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。

时序模式类算法主要有:

l  指数平滑

l  多元回归

l  GM灰色理论

l  RBF神经网络

l  ANFIS神经网络

l  SVM支持向量机

 

主要算法介绍:

算法名称

算法描述

输出示例

指数平滑

使用指数平滑(Exponential Smoothing)方法进行时间序列预测

 

GM

灰色理论

使用灰色GM(1,1)模型进行时间序列预测

 

RBF

神经网络

使用RBF神经网络方法进行时间序列预测

 

多元回归

使用回归方法进行时间序列预测

 

SVM

支持向量机

使用SVM支持向量机方法进行时间序列预测

 

ANFIS

自适应神经模糊推理系统

使用ANFIS自适应神经模糊推理系统方法进行时间序列预测

 
     

说明:版本不断更新,更多算法详见:www.tipdm.cn

  1. 4.  聚类分析

聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。

聚类分析类算法主要有:

l  K-均值算法

l  EM最大期望算法

l  DBScan密度算法

l  改进K-均值算法

l  多层次聚类

 

主要算法介绍:

 

算法名称

算法描述

输出示例

K-均值算法

K-均值聚类(K-means clustering)是Mac Queen提出的一种非监督实时聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K。

 

EM最大期望算法

最大期望(Expectation–Maximization,EM)算法是 Dempster,Laind,Rubin提出的求参数极大似然估计的一种方法,它可以从非完整数据集中对参数进行 MLE 估计。

 

DBScan密度算法

DBScan(Density Based Spatial Clustering of Applications with Noise),是基于密度的聚类方法,它根据对象周围的密度不断增长聚类。它能从含有噪声的空间数据库中发现任意形状的聚类。

 

多层次聚类

这种方法对给定的数据集合进行层次的分解,根据层次的分解如何形成,它又可分为凝聚法(也称自底向上方法)和分裂法(也称为从上向下方法)

 

 

 

 

  1. 5.  关联规则

关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。

关联分析类算法主要有:

l  HotSpot关联规则

l  Apriori关联规则

l  FP-Tree关联规则

l  HOTSPOT关联规则

l  灰色关联法

 

主要算法介绍:

说明:版本不断更新,更多算法详见:www.tipdm.cn

3.1.2  软件界面

 

 

 

 

3.1.3  运行环境

1、硬件环境

²  CPU:P4 3.0G以上,建议使用双CPU

²  内存:1GB以上

²  硬盘:80G以上硬盘剩余空间

2、软件环境:Windows/Linux

3.2  数据挖掘辅助教学多媒体软件

结合课程教学需要,本套件提供配套的教学用多媒体软件,指导学生快速了解和掌握数据挖掘建模技术。

 

 

多媒体软件主要包含:混合编程、挖掘建模、完整案例、自动动手和交互练习等。以下是部分截图:

 

 

 

 

 

 

3.3  数据挖掘辅助教学PPT

结合课程教学需要,数据挖掘辅助教学套件(TipDM-Res)同时提供配套的教学用PPT:

 

 

主要包含以下内容:

 

 

3.4  数据挖掘辅助教学实训教程

结合课程教学需要,数据挖掘辅助教学套件(TipDM-Res)提供实训教程,方便学生基于数据挖掘软件快速实现数据挖掘预测建模。

 

《数据挖掘:实用案例分析》中每个案例分别由挖掘目标的提出、分析方法与过程、建模仿真、核心知识点和拓展思考等内容构成,如下图示:

 

 

 

3.5  数据挖掘辅助教学案例库

泰迪公司近10年来在电信、电力、金融、互联网、教育、水产、税务、生产制造等行业20多个数据挖掘应用整理成案例库,案例库包括项目背景、研究目标及详细的技术实现路线,并配完整的数据资料。

3.6  云服务器(可选)

云计算作为网格计算的升级,在近几年来被提出,他具有超大规模、虚拟化、高可靠性、通用性强、高扩展性、按需服务、易用等优点,这些优点可被用来搭建系统解决海量数据挖掘的问题。

基于云计算的数据挖掘模式,它的同一个算法可以分布在多个节点上,多个算法之间是并行的,多个资源实行按需分配,而且分布式计算模型采用云计算模式。

 

 


4     产品特点

4.1  教师轻松教,学生轻松学

国内不少高校将此内容引入本科教学中,在自动化、电子信息、金融等专业开设了数据挖掘技术相关的课程。由于条件和学时所限,这些内容的教学主要限于理论介绍。因为抽象,学生理解起来往往比较困难,教学效果不甚理想,数据挖掘辅助教学套件的引入,能最大程度上使学生在最短的时间掌握数据挖掘技术。

传统教育方式以统一模式进行教学,无法针对不同程度的学习者提供最有效的教学。一种以学习者为主体,完全体现学习者的主动性、积极性,既可以进行个性化教学,又可以进行交互协作形式教学的新一代教育模式应运而生。其中一堂课中所包含的信息量也远远超过传统教育方式下教师凭一张嘴、一块黑板、一支粉笔完成的教学内容,大大提高了教学效率。

强调教与学双方主体的主动性与协作性,建立一个互动式的个性化学习环境,使教学双方主体能够充分发挥其主观能动性和创造性,以获得最佳教学效果。

4.2  根据需要,灵活定制课件内容

课程教学因专业而异,泰迪科技可根据实际情况和具体需要,为用户定制教学内容,并配备相关教学用PPT及学生上机实验指导书。

4.3  操作简单,维护方便

目前市面上绝大部分数据挖掘分析工具都是基于C/S模式,用户使用前需要进行下载、安装,并进行一些必要的配置,给非计算机类用户在使用方面带来一定难度。而顶尖数据挖掘平台(TipDM)基于B/S模式开发,用户只要能上网,即可通过远程模式快速实现数据挖掘建模。同时通过系统提供的操作指南及学习教程,在短时间内使学生即能掌握数据挖掘技术应用。

 

 

posted @ 2015-04-10 09:27  刘名军  阅读(525)  评论(1编辑  收藏  举报