会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
AndyJee
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
6
7
8
9
10
11
12
13
14
···
33
下一页
2015年10月9日
(算法)字典序数列
摘要: 题目:给定正整数N,要求对1~N的所有数按照字典序来排列,如:1-10:1 10 2 3 4 5 6 7 8 91-100:1 10 100 11 12 13 14 15 16 17 18 19 2 20 21 ......思路:1、字符串排序将1~N所有数字转为字符串,存进vector中,对vec...
阅读全文
posted @ 2015-10-09 17:12 AndyJee
阅读(891)
评论(0)
推荐(0)
2015年10月6日
(数据挖掘-入门-9)聚类
摘要: 主要内容:1、动机2、聚类3、python实现一、动机之前我们实现的分类器都是基于带标签或类别的数据集,这种学习方法叫做有监督的学习,这些数据一般都是通过人工标注的,成本和代价比较高。而实际中的原生数据都是没有标注的,如果没有标签,是否也能为这些数据进行分类呢?答案是肯定的,那就是本文要介绍的无监督...
阅读全文
posted @ 2015-10-06 20:32 AndyJee
阅读(1131)
评论(0)
推荐(0)
(数据挖掘-入门-8)基于朴素贝叶斯的文本分类器
摘要: 主要内容:1、动机2、基于朴素贝叶斯的文本分类器3、python实现一、动机之前介绍的朴素贝叶斯分类器所使用的都是结构化的数据集,即每行代表一个样本,每列代表一个特征属性。但在实际中,尤其是网页中,爬虫所采集到的数据都是非结构化的,如新闻、微博、帖子等,如果要对对这一类数据进行分类,应该怎么办呢?例...
阅读全文
posted @ 2015-10-06 16:18 AndyJee
阅读(1223)
评论(0)
推荐(0)
2015年10月5日
(数据挖掘-入门-7)朴素贝叶斯
摘要: 主要内容:1、动机2、贝叶斯定理3、朴素贝叶斯分类器4、NB与KNN比较5、python实现一、动机1、前面提到的最近邻、K近邻作为分类器来说,只是说新样本更大可能性地属于某一类,并不能准确地给出一个确信度;2、最近邻、K近邻分类器中,每次为新样本做分类都需要将所有训练样本全盘托出,计算一遍,这样的...
阅读全文
posted @ 2015-10-05 20:59 AndyJee
阅读(860)
评论(0)
推荐(0)
(数据挖掘-入门-6)十折交叉验证和K近邻
摘要: 主要内容:1、十折交叉验证2、混淆矩阵3、K近邻4、python实现一、十折交叉验证前面提到了数据集分为训练集和测试集,训练集用来训练模型,而测试集用来测试模型的好坏,那么单一的测试是否就能很好的衡量一个模型的性能呢?答案自然是否定的,单一的测试集具有偶然性和随机性。因此本文介绍一种衡量模型(比如分...
阅读全文
posted @ 2015-10-05 16:54 AndyJee
阅读(5026)
评论(1)
推荐(0)
(数据挖掘-入门-5)基于内容的协同过滤与分类
摘要: 1、动机2、基于内容的分类器3、python实现一、动机在前面的文章中介绍了基于用户和基于物品的协同过滤推荐方法,其实无论是基于用户还是基于物品,都是通过群体效应来进行推荐,因为衡量相似度的向量都是基于一定群体用户的评分,所以推荐出来的物品都是热门的流行的物品,对于一些冷门物品可能就无法收到亲睐。而...
阅读全文
posted @ 2015-10-05 11:01 AndyJee
阅读(2010)
评论(0)
推荐(0)
2015年10月4日
(数据挖掘-入门-4)基于物品的协同过滤
摘要: 主要内容:1、显性和隐性行为2、基于物品的协同过滤3、python实现4、基于用户和基于物品的协同过滤应用一、显性和隐性行为:了解用户喜好的途径有两种:1、显式的标记,即对物品进行“踩”/"赞"或打分等明显行为,例如购物网站对商品的评分等;2、隐式的跟踪,即跟踪用户对物品的行为,如点击、浏览等隐藏行...
阅读全文
posted @ 2015-10-04 17:41 AndyJee
阅读(1499)
评论(0)
推荐(0)
2015年10月2日
(数据挖掘-入门-3)基于用户的协同过滤之k近邻
摘要: 主要内容:1、k近邻2、python实现1、什么是k近邻(KNN)在入门-1中,简单地实现了基于用户协同过滤的最近邻算法,所谓最近邻,就是找到距离最近或最相似的用户,将他的物品推荐出来。而这里,k近邻(K Nearest Neighbor)的意思就是,找出最近或最相似的k个用户,将他们的评分(相似度...
阅读全文
posted @ 2015-10-02 11:05 AndyJee
阅读(1134)
评论(0)
推荐(0)
(数据挖掘-入门-2)相似度衡量的方法
摘要: 主要内容:1、距离度量2、皮尔逊关系系数3、cosine相似度4、方法的选择1、距离度量距离度量是最简单的衡量相似度的方法,公式如下:当r=1时,为曼哈顿距离(manhattan distance);当r=2时,为欧几里得距离(Euclidean distance);优点:简单缺点:当数据某些属性或...
阅读全文
posted @ 2015-10-02 10:33 AndyJee
阅读(1799)
评论(0)
推荐(0)
2015年10月1日
(数据挖掘-入门-1)基于用户的协同过滤之最近邻
摘要: 主要内容:1、什么是基于用户的协同过滤2、python实现1、什么是基于用户协同过滤:协同过滤:Collaborative Filtering,一般用于推荐系统,如京东,亚马逊等电商网站上的“购买该物品的用户还喜欢/购买”之类的栏目都是根据协同过滤推荐出来的。基于用户的协同过滤:User-based...
阅读全文
posted @ 2015-10-01 16:09 AndyJee
阅读(868)
评论(0)
推荐(0)
上一页
1
···
6
7
8
9
10
11
12
13
14
···
33
下一页
公告