随笔分类 -  machine learning

摘要:对数值类数据建模—加权k近邻算法 根据相邻的数据预测出目标的取值情况 算法: 计算给定向量与所有其他数据的距离,并按照距离排序 选出前k位,求前k个数据的加权平均,权重根据距离求得 要点: 计算距离:使用欧几里得距离算法 计算权重算法: 反函数 减法函数 高斯函数 缩放:对于各个变量的取值范围相差较 阅读全文
posted @ 2017-04-01 19:30 lacker 阅读(855) 评论(0) 推荐(0)
摘要:决策树 适合用来处理带有分界点的数据 优点 1. 易于解释:能结合实际数据对受训模型进行合理的解释,便于理解 2. 可以同时接受分类数据和数值数据作为输入 3. 允许数据缺失 缺点 1. 过度拟合:专门针对训练数据创建出来的分支,可能更具有特殊性。解决办法:对决策树进行剪枝 2. 针对不同类型的数据 阅读全文
posted @ 2017-03-30 23:55 lacker 阅读(809) 评论(0) 推荐(0)
摘要:分类 分类方法: 1. 朴素贝叶斯分类法 2. 费舍尔分类法 1.0 1.0 0.75 0.708333333333 0.15625 0.05 good bad unknown bad 0.78013986589 0.356335962833 good bad good bad 阅读全文
posted @ 2017-03-28 23:21 lacker 阅读(413) 评论(0) 推荐(0)
摘要:优化问题 使用随机优化解决写作类问题:存在多种变量的影响,存在许多个可能的解,通过对题解打分,找到一个问题的最优解。 优化的主要思想: 1. 找到影响结果的因素,比如这里旅行的航班价格、花费时间、租车费用等 2. 将考虑到的主要因素根据权重组成,计算出总的成本 3. 利用一定的算法找到成本最小时候的 阅读全文
posted @ 2017-03-27 20:29 lacker 阅读(654) 评论(0) 推荐(0)
摘要:简单的搜索引擎 核心思想就是 1. 爬取指定页面,提取出页面中的url,进行递归爬取,可以指定递归深度 2. 提取网页中的文字内容,根据一定规则进行分词,保存在数据库中,分出的单词和url对应存储 3. 对查询参数分词,然后查询数据库中各个单词对应的url,然后返回 对搜索结果进行排名: 1. 基于 阅读全文
posted @ 2017-03-14 21:20 lacker 阅读(1108) 评论(0) 推荐(0)
摘要:聚类 属于无监督学习 目的:找到数据集中的不同群组 分级聚类 主要思想是: 1. 在数据集中找出两个最相似的节点 2. 根据这两个节点生成一个新的聚类节点,这个节点的数据为两个子节点的数据的平均值, 3. 将两个子节点从数据集中去除,将新的聚类节点加入数据 4. 回到1,直至数据集中只剩一个节点 K 阅读全文
posted @ 2017-03-13 23:20 lacker 阅读(1172) 评论(1) 推荐(2)
摘要:提供推荐 1. 计算两个人的相似度 2. 本来是推荐平均评分较高的作品,考虑到两个人的爱好相似程度,对评分根据相似度进行加权平均 计算相似度: 1. 欧几里得距离 2. pearson相关度 计算相关度 pearson相关系数计算公式( "参考" ) 0.294298055086 0.3960590 阅读全文
posted @ 2017-03-07 21:56 lacker 阅读(445) 评论(0) 推荐(0)