01 2015 档案
摘要:ref: blog:http://zhihaozhang.github.io/2014/05/20/svm4/ 《数据挖掘导论》真正的大神是当采用的算法表现出不是非常好的性能的时候,懂得如何去更改算法的人。本节课的三个内容:Kernels:核,用于构建非线性的分类器Soft Margin:软间隔,减...
        阅读全文
                
摘要:本文适合于对SVM基本概念有一点了解的童鞋。 SVM基本概念: 最大边缘平面——基本原理:结构风险最小化 分类器的泛化误差 支持向量 问题描述: 请对一下数据,利用svm对其进行分类。 最终任务: 找到最优超平面 图1 看到这张...
        阅读全文
                
摘要:前段时间,由于项目中用到了序列挖掘的算法,师兄推荐我用用SPMF。在此做个记录。首先简单介绍一下SPMF:SPMF是一个采用Java开发的开源数据挖掘平台。它提供了51种数据挖掘算法实现,用于:序列模式挖掘,关联规则挖掘,frequent itemset 挖掘,顺序规则挖掘,聚类HOME PAGE:...
        阅读全文
                
摘要:写在前面:机器学习的目标是从训练集中得到一个模型,使之能对测试集进行分类,这里,训练集和测试集都是分布D的样本。而我们会设定一个训练误差来表示测试集的拟合程度(训练误差),虽然训练误差具有一定的参考价值。但实际上,我们并不关心对训练集合的预测有多么准确。我们更关心的是对于我们之前没有见过的一个全新的...
        阅读全文
                
摘要:数据质量问题分类本文主要讨论实例层数据质量问题数据质量评价(12个维度)1)数据规范(Data specification):对数据标准、 数据模型、业务规则、元数据和参考数据进行有关存在性、完整性、质量及归档的测量标准; 2)数据完整性准则(Data integrity fundamentals...
        阅读全文
                
摘要:(1)准备。包括需求分析、信息环境分析、任务定义、方法定义、基本配置,以及基于以上工作获得数据清洗方案等。通过需求分析明确信息系统的数据清洗需求,通过信息环境分析明确数据所处的信息环境特点,任务定义要明确具体的数据清洗任务目标,方法定义确定合适的数据清洗方法,基本配置完成数据接口等的配置,要形成完整...
        阅读全文
                
摘要:王曰芬 章成志 张蓓蓓 吴婷婷 定义:数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。 目的:数据清洗的目的是为信息系统提供准确而有效的数据。 基本原理:利用有关技术,如统计方法、数据挖掘方法、模式规则方法等将脏数据转换为满足数据质量要求的数据。数据清洗按照实现方式与范围,可分为以...
        阅读全文
                
                    
                
浙公网安备 33010602011771号