数据挖掘 - 随笔分类 - Ant°

信息检索模型与评估

摘要：信息检索的前提是对信息内容的索引提取，所谓的索引就是指用于标识信息内容的项。建立信息的索引的方法，通常可分为两类：一种是手动定义索引，一种是自动获取索引。而我们所要面临的数据源，既可能是模块化或结构化的语言，譬如HTML语言，又可能是非结构化的语言，譬如自然语言；既可能是与上下文相关的词汇，又可能是阅读全文

posted @ 2017-03-17 15:30 Ant° 阅读(432) 评论(0) 推荐(0)

机器学习的描述

摘要：令W是给定世界的有限或无限的所有观测对象的集合，由于我们观察能力的限制，我们只能获得这个世界的一个有限的子集，称为样本集。机器学习就是根据这个样本集，推算这个世界的模型，使它对这个世界为真。需要解决三个问题： 1. 一致：假设世界W与样本集Q具有相同的性质。 2. 划分：将样本集放到n维空间，寻找阅读全文

posted @ 2016-11-12 00:01 Ant° 阅读(986) 评论(0) 推荐(0)

决策树分类方法

摘要：在博弈论中常常使用决策树寻找最优决策，这些决策树往往是人工生成的。在数据挖掘过程中，决策树的生成通常是通过对数据的拟合、学习，从数据集中获取到一棵决策树。决策树的形式，从根节点到叶子节点的路径就是决策的过程。其本质思路就是使用超平面对数据递归化划分。决策树的生成过程，就是对数据集进行反复切割的阅读全文

posted @ 2016-11-05 18:25 Ant° 阅读(6658) 评论(0) 推荐(1)

Ant°

随笔分类 - 数据挖掘