随笔分类 -  数据挖掘

摘要:信息检索的前提是对信息内容的索引提取,所谓的索引就是指用于标识信息内容的项。建立信息的索引的方法,通常可分为两类:一种是手动定义索引,一种是自动获取索引。而我们所要面临的数据源,既可能是模块化或结构化的语言,譬如HTML语言,又可能是非结构化的语言,譬如自然语言;既可能是与上下文相关的词汇,又可能是 阅读全文
posted @ 2017-03-17 15:30 Ant° 阅读(432) 评论(0) 推荐(0)
摘要:令W是给定世界的有限或无限的所有观测对象的集合,由于我们观察能力的限制,我们只能获得这个世界的一个有限的子集,称为样本集。机器学习就是根据这个样本集,推算这个世界的模型,使它对这个世界为真。 需要解决三个问题: 1. 一致:假设世界W与样本集Q具有相同的性质。 2. 划分:将样本集放到n维空间,寻找 阅读全文
posted @ 2016-11-12 00:01 Ant° 阅读(986) 评论(0) 推荐(0)
摘要:在博弈论中常常使用决策树寻找最优决策,这些决策树往往是人工生成的。在数据挖掘过程中,决策树的生成通常是通过对数据的拟合、学习,从数据集中获取到一棵决策树。 决策树的形式,从根节点到叶子节点的路径就是决策的过程。其本质思路就是使用 超平面 对数据递归化划分。决策树的生成过程,就是对数据集进行反复切割的 阅读全文
posted @ 2016-11-05 18:25 Ant° 阅读(6658) 评论(0) 推荐(1)