随笔分类 -  读书笔记

摘要:使用octave编程的时候,一定要注意使用向量化编程的思想,下面我就说说我今天做题遇到的一个K-means聚类问题,如何使用octave中的函数向量计算聚类中心centroids。octave几个函数: bsxfun: 二元操作函数,调用方式:bsxfun (F, A, B),A为 向量... 阅读全文
posted @ 2016-01-17 17:09 simplelovecs 阅读(1769) 评论(0) 推荐(0)
摘要:K-means 算法是无监督的 聚类算法,算法简单,有效。K-means算法:输入参数: 指定聚类数目 k,训练集 X输出 : k 个聚类算法描述: K-means 算法 是一个 迭代算法,每次迭代分成两个步骤: 1)指定聚类步骤: 计算每个样本到 k 个 聚类中心的 距离... 阅读全文
posted @ 2016-01-17 00:51 simplelovecs 阅读(1591) 评论(1) 推荐(0)
摘要:首先,使用一个 简单的机器学习算法,尽可能快的实现一个机器学习系统(比如24小时以内),用这个算法在训练集上训练拟合得到一个模型,然后 在验证集上进行验证。 其次,画出 学习曲线图 来判断 是需要 更多的数据,还是需要 抽取、添加更多的特征,还是选择其他机器学习算法等等。 最后,可以人工查看... 阅读全文
posted @ 2016-01-15 17:35 simplelovecs 阅读(248) 评论(0) 推荐(0)
摘要:假设我们已经训练得到 一个模型,那么我们怎么直观判断这个 模型的 bias 和 variance? 直观方法: 如果模型的 训练错误 比较大,并且 验证错误 和训练错误 差不多一样,都比较大,我们就认为这个模型 是 高bias 的,或者说 它是 underfit 。 如果模型的 训... 阅读全文
posted @ 2016-01-15 17:08 simplelovecs 阅读(930) 评论(0) 推荐(0)
摘要:首先明白一个事实,那就是如果我们在某个训练集上训练拟合得到一个模型,那么显然,这个模型在这个训练集上的训练错误很有可能会比实际上的泛化错误(generalization error)会低(模型overfitting)。 问题来了: 假如我们把数据集分成 训练集 和 测试集。然后,在训练集... 阅读全文
posted @ 2016-01-15 16:08 simplelovecs 阅读(377) 评论(0) 推荐(0)
摘要:一、为什么要进行机器学习算法诊断? 如果我们在某个数据集上训练得到一个模型假设 h(X),而当我们将这个模型应用到一个新的数据集上,或者说用这个模型来做预测的时候,发现这个模型的预测错误很大,那么我们应该如何做,采取什么办法来 改善 模型 的性能呢? 办法就是,对算法进行诊断。二、机器学习算法诊... 阅读全文
posted @ 2016-01-15 13:29 simplelovecs 阅读(501) 评论(0) 推荐(0)
摘要:相关书籍: 《Lucene实战》第二版; 《搜索引擎基础教程》; 《Lucene搜索引擎开发进阶实战》;(我现在看得书)学习注意要点: 不要盲目从代码入手,而要先掌握基础概念知识和原理; 创建索引 和 搜索索引 是两个过程,先有第一步才有第二步; 开发模式可以有Lucene+Java,还... 阅读全文
posted @ 2016-01-14 09:50 simplelovecs 阅读(210) 评论(0) 推荐(0)
摘要:Lucene是一个工具库,是一个高性能、可扩展的信息检索开源库,它提供了一个简单应用接口,用于全文索引和搜索。优点:索引文件格式独立于应用平台,不同平台能够共享索引文件;具有优秀的面向对象的系统架构;默认实现了一套强大的查询引擎,包括模糊查询、分组查询等适用范围:首先是,文本的检索;其次是,网站信息... 阅读全文
posted @ 2016-01-14 09:22 simplelovecs 阅读(245) 评论(0) 推荐(0)
摘要:今天在阅读<Lucene搜索引擎开发进阶实战,第一章,网络爬虫策略,里面提到了网页去重,网页内容重复分为几类,完全重复,仅内容重复,仅布局重复,部分重复.针对网页去重,有很多算法支撑,Shingling算法;I-Match算法;Google专用的SimHash算法(公认最优秀);SpotSig算法还... 阅读全文
posted @ 2016-01-14 08:57 simplelovecs 阅读(686) 评论(0) 推荐(0)