Apache Spark源码走读之3 -- Task运行期之函数调用关系分析
摘要:概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。准备spark已经安装完毕spark运行在local mode或local-cluster modelocal-cluster mod...
阅读全文
posted @
2014-11-30 11:31
船长
阅读(201)
推荐(0)
Apache Spark源码走读之5 -- DStream处理的容错性分析
摘要:在流数据的处理过程中,为了保证处理结果的可信度(不能多算,也不能漏算),需要做到对所有的输入数据有且仅有一次处理。在Spark Streaming的处理机制中,不能多算,比较容易理解。那么它又是如何作到即使数据处理结点被重启,在重启之后这些数据也会被再次处理呢?环境搭建为了有一个感性的认识,先运行一...
阅读全文
posted @
2014-11-30 11:30
船长
阅读(229)
推荐(0)
Apache Spark源码走读之6 -- 存储子系统分析
摘要:Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk,本文尝试分析Spark中存储子系统的构成,并以数据写入和数据读取为例,讲述清楚存储子系统中各部件的交互关系。存储子系统概览上图是Spark存储子系统中几个主要模块的关系示意图,现简要说明如下CacheM...
阅读全文
posted @
2014-11-30 11:30
船长
阅读(163)
推荐(0)
Apache Spark源码走读之4 -- DStream实时流数据处理
摘要:Spark Streaming能够对流数据进行近乎实时的速度进行数据处理。采用了不同于一般的流式数据处理模型,该模型使得Spark Streaming有非常高的处理速度,与storm相比拥有更高的吞能力。本篇简要分析Spark Streaming的处理模型,Spark Streaming系统的初始化...
阅读全文
posted @
2014-11-30 11:30
船长
阅读(228)
推荐(0)
Apache Spark源码走读之8 -- Spark on Yarn
摘要:概要Hadoop2中的Yarn是一个分布式计算资源的管理平台,由于其有极好的模型抽象,非常有可能成为分布式计算资源管理的事实标准。其主要职责将是分布式计算集群的管理,集群中计算资源的管理与分配。Yarn为应用程序开发提供了比较好的实现标准,Spark支持Yarn部署,本文将就Spark如何实现在Ya...
阅读全文
posted @
2014-11-30 11:30
船长
阅读(253)
推荐(0)
Apache Spark源码走读之7 -- Standalone部署方式分析
摘要:在Spark源码走读系列之2中曾经提到Spark能以Standalone的方式来运行cluster,但没有对Application的提交与具体运行流程做详细的分析,本文就这些问题做一个比较详细的分析,并且对在standalone模式下如何实现HA进行讲解。没有HA的Standalone运行模式先从比...
阅读全文
posted @
2014-11-30 11:29
船长
阅读(264)
推荐(0)
Apache Spark源码走读之9 -- Spark源码编译
摘要:概要本来源码编译没有什么可说的,对于java项目来说,只要会点maven或ant的简单命令,依葫芦画瓢,一下子就ok了。但到了Spark上面, 事情似乎不这么简单,按照spark officical document上的来做,总会出现这样或那样的编译错误,让人懊恼不已。今天闲来无事,又重试了一把,居...
阅读全文
posted @
2014-11-30 11:29
船长
阅读(140)
推荐(0)
Apache Spark源码走读之11 -- sql的解析与执行
摘要:概要在即将发布的spark 1.0中有一个新增的功能,即对sql的支持,也就是说可以用sql来对数据进行查询,这对于DBA来说无疑是一大福音,因为以前的知识继续生效,而无须去学什么scala或其它script.一般来说任意一个sql子系统都需要有parser,optimizer,execution三...
阅读全文
posted @
2014-11-30 11:28
船长
阅读(197)
推荐(0)
Apache Spark源码走读之10 -- 在YARN上运行SparkPi
摘要:概要“spark已经比较头痛了,还要将其运行在yarn上,yarn是什么,我一点概念都没有哎,再怎么办啊。不要跟我讲什么原理了,能不能直接告诉 我怎么将spark在yarn上面跑起来,I'm a dummy, just told me how to do it.”如果你和我一样是一个对形而上的东西不...
阅读全文
posted @
2014-11-30 11:27
船长
阅读(297)
推荐(0)
Apache Spark源码走读之14 -- Graphx实现剖析
摘要:概要图的并行化处理一直是一个非常热门的话题,这里头的重点有两个,一是如何将图的算法并行化,二是找到一个合适的并行化处理框架。Spark作为一个非常优秀的并行处理框架,将一些并行化的算法移到其上面就成了一个很自然的事情。Graphx是一些图的常用算法在Spark上的并行化实现,同时提供了丰富的API接...
阅读全文
posted @
2014-11-30 11:27
船长
阅读(204)
推荐(0)
Apache Spark源码走读之12 -- Hive on Spark运行环境搭建
摘要:Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapRed...
阅读全文
posted @
2014-11-30 11:27
船长
阅读(159)
推荐(0)
Apache Spark源码走读之2 -- Job的提交与运行
摘要:概要本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。实验环境搭建在进行后续操作前,确保下列条件已满足。下载spark binary 0.9.1安装scala安装sbt安装java启动spark-shell单机模式运行,即local模式local模式运...
阅读全文
posted @
2014-11-30 11:27
船长
阅读(164)
推荐(0)
主成分分析(4)
摘要:主成分分析(Principal components analysis)-最大方差解释原文链接:http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html 在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算...
阅读全文
posted @
2014-11-30 11:26
船长
阅读(184)
推荐(0)
主成分分析(3)
摘要:1 引言2 实例和数学背景3 旋转数据4 数据降维5 还原近似数据6 选择主成分个数7 对图像数据应用PCA算法8 参考文献9 中英文对照10 中文译者引言 主成分分析(PCA)是一种能够极大提升无监督特征学习速度的数据降维算法。更重要的是,理解PCA算法,对实现白化算法有很大的帮助,很多算法都先用...
阅读全文
posted @
2014-11-30 11:26
船长
阅读(241)
推荐(0)
Apache Spark源码走读之16 -- spark repl实现详解
摘要:概要之所以对spark shell的内部实现产生兴趣全部缘于好奇代码的编译加载过程,scala是需要编译才能执行的语言,但提供的scala repl可以实现代码的实时交互式执行,这是为什么呢?既然scala已经提供了repl,为什么spark还要自己单独搞一套spark repl,这其中的缘由到底何...
阅读全文
posted @
2014-11-30 11:26
船长
阅读(1094)
推荐(0)
Apache Spark源码走读之15 -- Standalone部署模式下的容错性分析
摘要:概要本文就standalone部署方式下的容错性问题做比较细致的分析,主要回答standalone部署方式下的包含哪些主要节点,当某一类节点出现问题时,系统是如何处理的。Standalone部署的节点组成介绍Spark的资料中对于RDD这个概念涉及的比较多,但对于RDD如何运行起来,如何对应到进程和...
阅读全文
posted @
2014-11-30 11:26
船长
阅读(156)
推荐(0)
Apache Spark源码走读之13 -- hiveql on spark实现详解
摘要:概要在新近发布的spark 1.0中新加了sql的模块,更为引人注意的是对hive中的hiveql也提供了良好的支持,作为一个源码分析控,了解一下spark是如何完成对hql的支持是一件非常有趣的事情。Hive简介Hive的由来以下部分摘自Hadoop definite guide中的Hive一章“...
阅读全文
posted @
2014-11-30 11:26
船长
阅读(280)
推荐(0)
主成分分析(5)
摘要:主成分分析(Principal components analysis)-最小平方误差解释3.2 最小平方误差理论 假设有这样的二维样本点(红色点),回顾我们前面探讨的是求一条直线,使得样本点投影到直线上的点的方差最大。本质是求直线,那么度量直线求的好不好,不 仅仅只有方差最大化的方法。再回想我们...
阅读全文
posted @
2014-11-30 11:25
船长
阅读(215)
推荐(0)
主成分分析(2)
摘要:PrincipalComponentAnalysis(PCA)matlab的Feature Transformation提供了一个有关主成分分析的介绍和例子。PCA的介绍 多元统计分析中普遍存在的困难中,有一个困难是多元数据的可视化。matlab的plot可以显示两个变量之间的关系,plot3和su...
阅读全文
posted @
2014-11-30 11:25
船长
阅读(1689)
推荐(0)
Apache Spark源码走读之1 -- Spark论文阅读笔记
摘要:源码阅读是一件非常容易的事,也是一件非常难的事。容易的是代码就在那里,一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计,设计之初要解决的主要问题是什么。在对Spark的源码进行具体的走读之前,如果想要快速对Spark的有一个整体性的认识,阅读Matei Zaharia做的Spark论文...
阅读全文
posted @
2014-11-28 20:18
船长
阅读(163)
推荐(0)
Spark简介
摘要:Spark已正式申请加入Apache孵化器,从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述Spark的设计思想。Spark如其名,展现了大数据不常见的“电光石火”。具体特点概括为“轻、快、灵和巧”。轻:Spark 0.6核心代码有2万行,Hadoop 1.0为9万行,...
阅读全文
posted @
2014-11-28 20:17
船长
阅读(573)
推荐(0)
Spark 编程指南
摘要:尊重原创,注重版权,转贴请注明原文地址:http://www.cnblogs.com/vincent-hv/p/3322966.html1、配置程序使用资源:System.setProperty("spark.executor.memary", "512m")2、创建自己的SparkContext对...
阅读全文
posted @
2014-11-28 20:16
船长
阅读(144)
推荐(0)
主成分分析(1)
摘要:主成分分析是一种降维方法,主要用于数据压缩,数据可视化以及特征提取等方面。 现实中我们经常可以遇到维数很高的数据,如一张28*28的图片,可以看作维度为784。类似图片这样的高维数据,实际上各个维度之间具有高度的关联性, 即维度之间并非完全独立的。通过进行主成分分析,可以将数据的主要特征提取出来,忽...
阅读全文
posted @
2014-11-28 20:11
船长
阅读(349)
推荐(0)
LaTeX学习教程(入门级)
摘要:先用三句话来介绍什么是LaTeX。1.LaTeX是一类用于编辑和排版的软件,用于生成PDF文档。2.LaTeX编辑和排版的核心思想在于,通过\section和\paragraph等语句,规定了每一句话在文章中所从属的层次,从而极大方便了对各个层次批量处理。3.LaTeX在使用体验方面,最不易被Wor...
阅读全文
posted @
2014-11-25 15:26
船长
阅读(3051)
推荐(0)
MapReduce:Job性能调优总结
摘要:是时候把去年早期MapReduce调优工作的结果放出来了,丢在Google Doc里太长时间,都落了一身的灰 Benchmark: 对1G数据做wordcount部分内容:*********************************硬件级别提高磁盘IO的性能noatime 我为两台slaves...
阅读全文
posted @
2014-11-19 11:23
船长
阅读(237)
推荐(0)
MapReduce:详解Shuffle过程
摘要:Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapRed...
阅读全文
posted @
2014-11-19 11:17
船长
阅读(113)
推荐(0)
闲谈神经网络--写给初学者(三)
摘要:接上篇。 前面两篇讲解了神经网络就是一个黑箱,里面有一个一个的小圆球(神经元)连接而成,通过改变神经元的连接方式及各个参数,就可以实现一个符合要求的神经网络。接下来我们来举一个BP神经网络的例子,以加深理解。 在讲解这个例子之前,大概说一下一个神经网络解决问题的思路: 1.对要解决的问题进行理...
阅读全文
posted @
2014-11-19 10:24
船长
阅读(659)
推荐(1)
闲谈神经网络--写给初学者(二)
摘要:继续上篇来写。为了使这个神经网络满足我们需要,我们能够改变的东西有:(0)输入输出的格式和质量(1)各个神经元的权重值W(2)偏置bias,这个改变从广义上说,也算是改变权重W0(3)激活函数(4)神经网络层数(5)每一层神经元个数(6)神经网络的结构那么问题又来了,这些参数怎么改变呢?我们一部分一...
阅读全文
posted @
2014-11-19 10:24
船长
阅读(747)
推荐(0)
用python语言讲解数据结构与算法总述(一)
摘要:关于数据结构与算法讲解的书籍很多,但是用python语言去实现的不是很多,最近有幸看到一本这样的书籍,由Brad Miller and David Ranum编写的《Problem Solving with Algorithms and Data Structures Using Python》,...
阅读全文
posted @
2014-11-19 10:24
船长
阅读(298)
推荐(0)
闲谈神经网络--写给初学者(一)
摘要:写在前面的话:保持一贯的风格,正式开始写之前,先啰嗦一番。介绍神经网络的书籍和文章简直太多了,所以我也不准备用太洋气的话去讲,尽量写的土一点,大家看完文章后,能够对神经网络有一个整体的认识,有所体会,我便达到了目的。接下来再根据自己的问题,去看看大块头的书,练习练习,就好了。如果能够跟自己的学习工作...
阅读全文
posted @
2014-11-18 11:07
船长
阅读(860)
推荐(0)
换个角度理解云计算之MapReduce[2]
摘要:3.Combiner操作前面讲完Map操作,总结一下就是:一个大文件,分成split1~5,对应于Map1~5,每一个Map处理一个split,每一个split的每一行,会用每一个Map的map方法去处理,经过上面操作,最终输出了5个中间结果。对于这5个中间结果的每一个来说,都有很多行,每一行是ke...
阅读全文
posted @
2014-11-18 10:27
船长
阅读(228)
推荐(0)
换个角度理解云计算之MapReduce[1]
摘要:上一篇简单讲了一下HDFS,简单来说就是一个叫做“NameNode”的大哥,带着一群叫做“DataNode”的小弟,完成了一坨坨数据的存储,其中大哥负责保存数据的目录,小弟们负责数据的真正存储,而大哥和小弟其实就是一台台的电脑,他们之间通过交换机,互相联系到了一起。 其实这位大哥和这群小弟不仅能存...
阅读全文
posted @
2014-11-18 10:20
船长
阅读(446)
推荐(0)
换个角度理解云计算之HDFS
摘要:学习云计算,必然得了解Hadoop,而Hadoop中的HDFS(分布式文件系统)是一个基础,接下来就写一下我所理解的HDFS。 有一个很有特别的村庄,村庄里面有一个很牛逼的人,叫做“大哥”,村民们都信得过他,于是会把自己家的粮食、农具等等各种各样的东西“打包成一个大的包裹”让“大哥”给存着,等用的...
阅读全文
posted @
2014-11-18 10:13
船长
阅读(270)
推荐(0)
基于.NET实现数据挖掘--神经网络算法
摘要:前言有段时间没有进行我们的微软数据挖掘算法系列了,最近手头有点忙,鉴于上一篇的神经网络分析算法原理篇后,本篇将是一个实操篇,当然前面我们总结了其它的微软一系列算法,为了方便大家阅读,我特地整理了一篇目录提纲篇:大数据时代:深入浅出微软数据挖掘算法总结连载, 我打算将微软商业智能中在DM这块所用到的算...
阅读全文
posted @
2014-11-12 22:12
船长
阅读(636)
推荐(0)
基于.NET实现数据挖掘--线性回归算法
摘要:此篇为微软系列挖掘算法的最后一篇了,完整该篇之后,微软在商业智能这块提供的一系列挖掘算法我们就算总结完成了,在此系列中涵盖了微软在商业智能 (BI)模块系统所能提供的所有挖掘算法,当然此框架完全可以自己扩充,可以自定义挖掘算法,不过目前此系列中还不涉及,只涉及微软提供的算法,当然这些 算法已经基本涵...
阅读全文
posted @
2014-11-12 22:11
船长
阅读(1072)
推荐(0)
基于.NET实现数据挖掘--神经网络算法原理
摘要:前言本篇文章继续我们的微软挖掘系列算法总结,前几篇文章已经将相关的主要算法做了详细的介绍,我为了展示方便,特地的整理了一个目录提纲篇:大数据时代:深入浅出微软数据挖掘算法总结连载, 有兴趣的童鞋可以点击查阅,在开始Microsoft 神经网络分析算法之前,本篇我们先将神经网络分析算法做一个简单介绍,...
阅读全文
posted @
2014-11-12 22:05
船长
阅读(1135)
推荐(0)
基于.NET实现数据挖掘--顺序分析与聚类分析算法
摘要:前言本篇文章继续我们的微软挖掘系列算法总结,前几篇文章已经将相关的主要算法做了详细的介绍,我为了展示方便,特地的整理了一个目录提纲篇:大数据时代:深入浅出微软数据挖掘算法总结连载, 有兴趣的童鞋可以点击查阅,本篇我们将要总结的算法为:Microsoft顺序分析和聚类分析算法,此算法为上一篇中的关联规...
阅读全文
posted @
2014-11-12 22:04
船长
阅读(567)
推荐(0)
基于.NET实现数据挖掘--关联规则分析算法
摘要:本篇继续我们的微软挖掘算法系列总结,前几篇我们分别介绍了:Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive Bayes 算法、Microsoft 时序算法,后续还补充了二篇结果预测篇、Microsoft 时序算法——结果预算+下期彩票预测篇, 看样子有...
阅读全文
posted @
2014-11-12 21:59
船长
阅读(371)
推荐(0)
基于.NET实现数据挖掘--时序算法1
摘要:本篇文章同样是继续微软系列挖掘算法总结,前几篇主要是基于状态离散值或连续值进行推测和预测,所用的算法主要是三种:Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive Bayes 算法,当然后续还补充了一篇结果预测篇, 所涉及的应用场景在前几篇文章中也有介绍...
阅读全文
posted @
2014-11-12 21:58
船长
阅读(449)
推荐(0)
基于.NET实现数据挖掘--时序算法2
摘要:前言本篇我们将总结的算法为Microsoft时序算法的结果预测值,是上一篇文章Microsoft时序算法的 一个总结,上一篇我们已经基于微软案例数据库的销售历史信息表,利用Microsoft时序算法对其结果进行了预测,并且相应形成了折线预测图和模型依赖 属性,有兴趣的同学可以点击查看,但是上篇文章的...
阅读全文
posted @
2014-11-12 21:57
船长
阅读(246)
推荐(0)
基于.NET实现数据挖掘--结果预测
摘要:前言本篇文章主要是继续前几篇Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive Bayes 算法,算法介绍后,经过这几种算法综合挖掘和分析之后,对一份摆在公司面前的人员信息列表进行推测,挖掘出这些人员信息中可能购买自行车的群体,把他们交个营销部,剩下的事...
阅读全文
posted @
2014-11-12 21:55
船长
阅读(1051)
推荐(0)
基于.NET实现数据挖掘--朴素贝叶斯算法
摘要:本篇文章主要是继续上两篇Microsoft决策树分析算法和Microsoft聚类分析算法后,采用另外更为简单一种分析算法对目标顾客群体的挖掘,同样的利用微软案例数据进行简要总结。有兴趣的同学可以先参照上面两种算法过程。应用场景介绍通过前面两种算法的应用场景介绍,此次总结的Microsoft Naiv...
阅读全文
posted @
2014-11-12 21:54
船长
阅读(810)
推荐(0)
Solr与HBase架构设计
摘要:摘要:本篇是本人在做一个大数据项目时,对于系统架构的一点总结,如何在保证存储量的情况下,又能保证数据的检索速度。前提: Solr、SolrCloud提供了一整套的数据检索方案,HBase提供了完善的大数据存储机制。需求: 1、对于添加到HBase中的结构化数据,能够检索出来。 2、...
阅读全文
posted @
2014-11-12 21:52
船长
阅读(167)
推荐(0)
大数据架构-使用HBase和Solr将存储与索引放在不同的机器上
摘要:摘要:HBase可以通过协处理器Coprocessor的 方式向Solr发出请求,Solr对于接收到的数据可以做相关的同步:增、删、改索引的操作,这样就可以同时使用HBase存储量大和Solr检索性能高 的优点了,更何况HBase和Solr都可以集群。这对海量数据存储、检索提供了一种方式,将存储与索...
阅读全文
posted @
2014-11-12 21:50
船长
阅读(304)
推荐(0)
基于.NET实现数据挖掘--聚类分析算法
摘要:本篇文章主要采用另外一种分析算法对目标顾客群体的挖掘,同样的利用微软案例数据进行简要总结。应用场景介绍通过上一篇中我们采用Microsoft决策树分析算法对已经发生购买行为的订单中的客户属性进行了分析,可以得到几点重要的信息,这里做个总结:1、对于影响购买自行车行为最重要的因素为:家中是否有小汽车,...
阅读全文
posted @
2014-11-12 21:47
船长
阅读(473)
推荐(0)
基于.NET实现数据挖掘--决策树分类算法
摘要:随着大数据时代的到来,数据挖掘的重要性就变得显而易见,几种作为最低层的简单的数据挖掘算法,现在利用微软数据案例库做一个简要总结。应用场景介绍其实数据挖掘应用的场景无处不在,很多的环境都会应用到数据挖掘,之前我们没有应用是因为还没有学会利用数据,或者说还没有体会到数据的重要性,现 在随着IT行业中大数...
阅读全文
posted @
2014-11-12 21:45
船长
阅读(1557)
推荐(1)
机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)
摘要:本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。前言: 上次写过一篇关于贝叶斯概率论的数学,最近时间比较紧,coding的任务比较重,不过还是抽空看了一些机器学习的书和视...
阅读全文
posted @
2014-11-12 00:26
船长
阅读(227)
推荐(0)
大数据技术 -- MapReduce 简介
摘要:本文为senlie原创,转载请保留此地址:http://www.cnblogs.com/senlie/1.概要很多计算在概念上很直观,但由于输入数据很大,为了能在合理的时间内完成,这些计算必须分布在数以百计数以千计的机器上。例如处理爬取得到的文档、网页请求日志来计算各种衍生数据,如倒排索引,网页文档...
阅读全文
posted @
2014-11-12 00:03
船长
阅读(474)
推荐(0)
机器学习 —— 决策树及其集成算法(Bagging、随机森林、Boosting)
摘要:本文为senlie原创,转载请保留此地址:http://www.cnblogs.com/senlie/决策树---------------------------------------------------------------------1.描述:以树为基础的方法可以用于回归和分类。树的节点...
阅读全文
posted @
2014-11-12 00:01
船长
阅读(1089)
推荐(0)
随机森林数学基础--大数定律
摘要:随机森林与决策树的一个显著的不同点就是它不会产生过度拟合。它的理论依据就是大数定律。很熟悉的一个名词:大数定律,记得本科的概率论就有学,忘了差不多了,下面先复习下。大量试验说明,随机事件A的频率R(A),当重复试验的次数n增大时,总呈现出稳定性,稳定在某一个常数的附件,意指数量越多,其平均值就越趋近...
阅读全文
posted @
2014-11-11 23:59
船长
阅读(578)
推荐(0)
机器学习--线性回归与分类 [转]
摘要:机器学习可以解决很多问题,其中最为重要的两个是 回归与分类。 这两个问题怎么解决, 它们之间又有什么区别呢? 以下举几个简单的例子,以给大家一个概念1. 线性回归回归分析常用于分析两个变量X和Y 之间的关系。 比如 X=房子大小 和 Y=房价 之间的关系, X=(公园人流量,公园门票票价) 与 Y=...
阅读全文
posted @
2014-11-11 10:54
船长
阅读(277)
推荐(0)
数据挖掘领域中的分类和回归区别
摘要:数据挖掘领域中的分类和回归区别分类和回归的区别在于输出变量的类型。 1)定量输出称为回归,或者说是连续变量预测; 2)定性输出称为分类,或者说是离散变量预测。拿支持向量机举个例子: 分类问题和回归问题都要根据训练样本找到一个实值函数g(x). 回归问题是:给定一个新的模式,根据训练集推断它所对应...
阅读全文
posted @
2014-11-11 10:05
船长
阅读(539)
推荐(0)