摘要:        
决策树(decision tree)一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。优点: 1) 可以生成可以理解的规则; 2) 计算量相对来说不是很大; 3) 可以处理连续和种类字段; 4) 决策树可以清晰的显示哪些字段比较重要。缺点: 1) 对连续性的字段比较难预测; 2) 对有时间顺序的数据,需要很多预处理的工作; 3) 当类别太多时,错误可能就会增加的比较快; 4) 一般的算法分类的时候,只是根据一个字段来分类。(racoon)一、C 5.0算法 执行效率和内存使用改进、...    阅读全文
        
            posted @ 2012-06-21 15:02
dekevin
阅读(7904)
评论(0)
推荐(0)
        
        
            
        
        
摘要:        
TwoStep Cluster属于近年来才发展起来的智能聚类方法的一种,用于解决海量数据,复杂类别结构时的聚类分析问题。与传统的层次聚类和快速聚类法相比,两步聚类法有鲜明的特点。首先,用于聚类的变量可以使连续变量,也可以是离散变量,不必像其他算法那样,在进行聚类之前对离散变量进行连续化处理;其次,两步聚类法占用的内存资源少,对于大数据量,运算速度较快。最后,它是真正的在利用统计量作为距离指标进行聚类,同时又可以根据一定的统计标准自动地建议甚至于确定最佳的类别数。顾名思义,两步聚类是通过两个步骤来完成聚类工作。一、预聚类这一步骤通过构建和修改聚类特征树(Cluster Feature Tree)    阅读全文
        
            posted @ 2012-06-21 14:58
dekevin
阅读(1685)
评论(0)
推荐(0)
        
        
                    
                
浙公网安备 33010602011771号