随笔分类 - 数据分析
摘要:Gephi是个非常好的用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具。上篇介绍了基本情况,其实Gephi有一个非常酷的效果,可以自动分析浏览网站之间的链接关系。
阅读全文
摘要:Gephi是一款开源免费跨平台基于JVM的复杂网络分析软件, 其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具。可用作:探索性数据分析,链接分析,社交网络分析,生物网络分析等。
阅读全文
摘要:我们采用这些建模算法之前可以使用散点图、网络图、分布图对数据的一些情况进行初步的分析,了解数据的一些大概规律,然后使用建模算法以后的结果来验证我们之前的思考,也可以算作一些验证和学习的过程吧。
阅读全文
摘要:数据分析也好,统计分析也好,数据挖掘也好、商业智能也好都需要在学习的时候掌握各种分析手段和技能,特别是要掌握分析软件工具!我曾经说过,沈老师的学习方法,一般是先学软件开始,再去应用,再学会理论和原理,因为是老师,再去教给别人!没有软件的方法就不去学了,因为学了也不能做,除非你自己会编程序。
阅读全文
摘要:数据挖掘和统计的区别:统计着重于验证和测试假设,也就是说在你开始分析前你知道模式或模型是什么数据挖掘则着眼于生成假设以及在没有指导的情况下发现新模式。 这也就是目前国内很多公司都有自己的统计分析平台,比如关于erp、crm、和业务的统计分析平台,这些统计分析平台都和各自的固有业务紧密联系,园子里的绝大多数人都开发过统计分析系统,但是不能说这些统计分析是数据挖掘一样。
阅读全文
摘要:决策树(Decisiontree)一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。
阅读全文
摘要:提到数据挖掘,大家的第一感觉是比较高深,稍微了解的人也会被里面涉及的众多概念和算法搞得晕头转向,其实任何的工具和算法都是为了解决特定的问题而产生的,如果我们抛开这些让人看着头疼的东西,还原事物的本来面貌,我们就可以比较容易理解这些工具和算法需要解决的问题,当然这种思路只是我的一家之言,正确与否,尚未可知,但是我们可以从这里进行入手。
阅读全文
摘要:提到数据分析,大家都会去关注大厂商的产品,如微软的ssis、ssas、ibm的spss (statistics、Modeler)、BO、SAS、R等,但是其实还有一个大家经常在使用的非常方便的工具,大家很多人每天都在使用,但是我们一直都没在意,这就是excel,提到excel真的不得不替微软这个大鳄赞扬一番,虽然微软其他的产品很多都受到诟病,但是office体系不能不说是微软产品体系最成功之一的产品,其中excel中包含很多的数据分析理念和功能,我仅就一些基本的地方进行说明,也是对学习和工作的一些总结吧,希望看到的人不要笑话,其实工作这么多年,我现在才真正发现,以前自己很多不屑和看不起的东西其实都是很优秀的,摆正自己的心态才能有所收获的,做任何事情缺少的就是用心,自己就是这样浑浑噩噩过来,现在才发现,很惨痛啊。说远了,看正题。
阅读全文
摘要:数据挖掘能干什么?
分类 分类可以把大量数据(在数据挖掘中也称为事例CASE)分成多个类别,而分类的依据就是这些事例中的属性。
聚类 分类有一个同胞兄弟就是聚类,聚类相对分类更加自动,聚类也将大量实例分成多个类别,不过这次是根据属性值的相似程度自动汇聚成不同的类别。通常把分类成为有监督的算法,而聚类则被称为无监督的算法,主要原因就是分类在执行前就已经有了明确的类别,而聚类在分析前还不知道有多少分类,而是通过不断的迭代使得各分类之间的边界更加清晰,然后再分析这些分类之间的差别,因此聚类也成为无监督的算法。
关联 关联是找到事例中出现频率较高的组合规则。
序列 提到关联,另外一个同胞兄弟就是序列。序列也是发现组合规律的,不过关联中所提到的规律不涉及到先后次序,而序列则是有先后次序的。
回归 对连续的结果值(不依靠人为分段Discretize)进行预测的算法归为回归。
阅读全文
摘要:从技术层面来说,按照数据挖掘产出的知识可以粗分为两大类:描述型挖掘和预测型挖掘。
阅读全文

浙公网安备 33010602011771号