02 2016 档案

摘要:3.1 数据预处理 数据质量的三个要素:准确性、完整性和一致性。 3.1.2 数据预处理的主要任务 数据清理:填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来”清理“数据。 数据集成: 数据归约: 3.2 数据清理 3.2.1 缺失值 1.忽略元组 2.人工填写缺失值 3.使用一个全局 阅读全文
posted @ 2016-02-14 21:22 地表最强队队员 阅读(2187) 评论(0) 推荐(0)
摘要:Logistic回归的一般过程 1.收集数据:采用任意方法收集 2.准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳 3.分析数据:采用任意方法对数据进行分析 4.训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数 5.测试算法:一旦训练步骤完 阅读全文
posted @ 2016-02-14 20:47 地表最强队队员 阅读(1835) 评论(0) 推荐(0)
摘要:4.1 基于贝叶斯决策理论的分类方法 朴素贝叶斯 优点:在数据较少的情况下仍然有效,可以处理多类别问题 缺点:对于输入数据的准备方式较为敏感 适用数据类型:标称型数据 贝叶斯决策理论的核心思想:选择具有最高概率的决策。 4.2 条件概率 4.3 使用条件概率来分类 4.4 使用朴素贝叶斯进行文档分类 阅读全文
posted @ 2016-02-06 18:01 地表最强队队员 阅读(790) 评论(0) 推荐(0)