10 2016 档案
摘要:1.数的快速幂问题: 所谓的快速幂,实际上是快速幂取模的缩写,简单的说,就是快速的求一个幂式的模(余)。在程序设计过程中,经常要去求一些大数对于某个数的余数,为了得到更快、计算范围更大的算法,产生了快速幂取模算法。快速幂实际上是求解形如:an%b这种形式。其中a和n可能会很大。 普通解法时间复杂度为
阅读全文
摘要:在建立分类模型时,交叉验证(Cross Validation)简称为CV,CV是用来验证分类器的性能。它的主体思想是将原始数据进行分组,一部分作为训练集,一部分作为验证集。利用训练集训练出模型,利用验证集来测试模型,以评估分类模型的性能。 训练数据上的误差叫做训练误差,它对算法模型的评价过于乐观。利
阅读全文
摘要:一 lris 数据集 lris数据集是经典的机器学习数据集,它源自于20世界30年代对花朵特征的统计数据。测量的每个花的特征数据如下: 1 花萼长度 sepal length (cm) 2 花萼宽度 sepal width (cm) 3 花瓣长度 petal length (cm) 4 花瓣宽度 p
阅读全文
摘要:之前学习了基于协同过滤的推荐。 在写同意后过滤中,通过和你购买了同样的物品的人也购买了其他物品来推荐。协同过滤的难点包括数据稀疏问题和扩展问题。另一个问题是基于协同过滤的推荐倾向于推荐已经流行的商品。这种情况可能导致‘富者越富贫者越贫’。流行音乐平台Pandora的推荐基于一种称为音乐基因的项目分析
阅读全文
摘要:现在给出一个Web统计信息,他们存储着每小时的访问次数。每一行包含连续的小时和信息,以及该小时Web的访问次数。现在要解决的问题是,估计在何时访问量达到基础设施的极限。极限数据是每小时100000次访问。 1.读取数据: 其中,x表示小时,y表示访问量。 2.预处理和清洗数据: 结果显示含有8个控值
阅读全文
摘要:Slope One 算法是由 Daniel Lemire 教授在 2005 年提出的一个 Item-Based 推荐算法。 他的主要优点是简单,易于扩展。实际上有多个Slope One算法,在此主要学习加权的Slope One算法。它将分为两步,第一步 为计算所有物品间的偏差,第二步利用偏差进行预测
阅读全文
摘要:现在假设你有100万个用户,每次对一个用户进行一次推荐时,需要计算100万次距离。如果每一秒需要进行多次推荐的话计算次数会十分巨大,系统会很慢。正式的说话是,基于令居的推荐系统的主要缺点是延迟性太差。 1 )基于用户的过滤的两个主要问题: 1.扩展性问题: 随着用户数量的增大,计算量会增大,基于用户
阅读全文
摘要:显式评级:显式评级是指用户显式的给出物品的评价结果,例如直接打分 显式评级存在的问题: 1 用户大多具有懒惰性,不愿意对物品进行评级:例如大部分人对购买的物品不愿意给出评价,这体现了一种用户懒惰行为 2 用户可能撒谎或者只给出部分信息:如果某人克服了懒惰性,真的对物品进行评分,该用户也可能撒谎 3
阅读全文
摘要:1) 输入help(sorted)可以得到下面类容: sorted(...) sorted(iterable, cmp=None, key=None, reverse=False) --> new sorted list sorted 可以对任意一个可迭代序列进行排序。如下: sorted对对迭代序
阅读全文
摘要:协同过滤,之所以协同是因为该方法是基于其他用户进行推荐的。工作流程如下:假设我们的任务是向你推荐一本书。我们会在网络上搜索与你相似兴趣的用户。一旦找到了这个用户,就看看这个用户喜欢的书,然后将其推荐给你。 如何寻找相似用户?一般而言,通过计算两个用户的距离,两个用户距离越小则相似度越高。先来看距离的
阅读全文
摘要:标准Python中一般使用列表保存值,可以当做数组来使用,但是由于列表的元素可以是任何对象,因此列表中保存的是数组的指针。这样为了保存一组简单的数据而需要大量的指针和对象。对于数值运算来说,这种结构显然浪费啦内存和CPU计算时间。 NumPy的出现弥补啦这些不足。NumPy提供了两种基本对象: 1
阅读全文
摘要:re模块包含对正则表达式的支持.正则表达式是可以匹配文本片段的模式,最简单的正则表达式就是普通的字符串,可以匹配其自身。 一 正则表达式中的元字符介绍: . 称为通配符,可以匹配任何字符(除了换行符) ^ 脱字符,匹配字符串的开头 $ 匹配字符串的结尾 * 匹配前面出现的正则表达式符号0次到多次 +
阅读全文

浙公网安备 33010602011771号