读书笔记 - 随笔分类 - simplelovecs

在octave语言中K-means聚类算法求聚类中心的向量化计算

摘要：使用octave编程的时候，一定要注意使用向量化编程的思想，下面我就说说我今天做题遇到的一个Ｋ-means聚类问题，如何使用octave中的函数向量计算聚类中心centroids。octave几个函数： bsxfun: 二元操作函数，调用方式：bsxfun (F, A, B)，A为向量... 阅读全文

posted @ 2016-01-17 17:09 simplelovecs 阅读(1776) 评论(0) 推荐(0)

K-means算法简介

摘要：K-means 算法是无监督的聚类算法，算法简单，有效。K-means算法：输入参数：指定聚类数目 k，训练集 X输出： k 个聚类算法描述： K-means 算法是一个迭代算法，每次迭代分成两个步骤： 1）指定聚类步骤：计算每个样本到 k 个聚类中心的距离... 阅读全文

posted @ 2016-01-17 00:51 simplelovecs 阅读(1606) 评论(1) 推荐(0)

机器学习系统设计的推荐指导方法

摘要：首先，使用一个简单的机器学习算法，尽可能快的实现一个机器学习系统（比如24小时以内），用这个算法在训练集上训练拟合得到一个模型，然后在验证集上进行验证。其次，画出学习曲线图来判断是需要更多的数据，还是需要抽取、添加更多的特征，还是选择其他机器学习算法等等。最后，可以人工查看... 阅读全文

posted @ 2016-01-15 17:35 simplelovecs 阅读(250) 评论(0) 推荐(0)

机器学习模型 bias 和 variance 的直观判断

摘要：假设我们已经训练得到一个模型，那么我们怎么直观判断这个模型的 bias 和 variance？直观方法：如果模型的训练错误比较大，并且验证错误和训练错误差不多一样，都比较大，我们就认为这个模型是高bias 的，或者说它是 underfit 。如果模型的训... 阅读全文

posted @ 2016-01-15 17:08 simplelovecs 阅读(937) 评论(0) 推荐(0)

机器学习模型的选择

摘要：首先明白一个事实，那就是如果我们在某个训练集上训练拟合得到一个模型，那么显然，这个模型在这个训练集上的训练错误很有可能会比实际上的泛化错误（generalization error）会低（模型overfitting）。问题来了：假如我们把数据集分成训练集和测试集。然后，在训练集... 阅读全文

posted @ 2016-01-15 16:08 simplelovecs 阅读(380) 评论(0) 推荐(0)

机器学习算法诊断

摘要：一、为什么要进行机器学习算法诊断？如果我们在某个数据集上训练得到一个模型假设 h(X)，而当我们将这个模型应用到一个新的数据集上，或者说用这个模型来做预测的时候，发现这个模型的预测错误很大，那么我们应该如何做，采取什么办法来改善模型的性能呢？办法就是，对算法进行诊断。二、机器学习算法诊... 阅读全文

posted @ 2016-01-15 13:29 simplelovecs 阅读(504) 评论(0) 推荐(0)

Lucene学习注意要点

摘要：相关书籍：《Lucene实战》第二版；《搜索引擎基础教程》；《Lucene搜索引擎开发进阶实战》；（我现在看得书）学习注意要点：不要盲目从代码入手，而要先掌握基础概念知识和原理；创建索引和搜索索引是两个过程，先有第一步才有第二步；开发模式可以有Lucene+Java，还... 阅读全文

posted @ 2016-01-14 09:50 simplelovecs 阅读(212) 评论(0) 推荐(0)

Lucene简介

摘要：Lucene是一个工具库，是一个高性能、可扩展的信息检索开源库，它提供了一个简单应用接口，用于全文索引和搜索。优点：索引文件格式独立于应用平台，不同平台能够共享索引文件；具有优秀的面向对象的系统架构；默认实现了一套强大的查询引擎，包括模糊查询、分组查询等适用范围：首先是，文本的检索；其次是，网站信息... 阅读全文

posted @ 2016-01-14 09:22 simplelovecs 阅读(250) 评论(0) 推荐(0)

网页去重和网页反作弊

摘要：今天在阅读<Lucene搜索引擎开发进阶实战，第一章，网络爬虫策略，里面提到了网页去重，网页内容重复分为几类，完全重复，仅内容重复，仅布局重复，部分重复．针对网页去重，有很多算法支撑，Shingling算法；I-Match算法；Google专用的SimHash算法（公认最优秀）；SpotSig算法还... 阅读全文

posted @ 2016-01-14 08:57 simplelovecs 阅读(690) 评论(0) 推荐(0)

随笔分类 - 读书笔记

公告