随笔档案「2016年10月」 - 曹孟德

快速幂介绍及其模板

摘要：1.数的快速幂问题：所谓的快速幂，实际上是快速幂取模的缩写，简单的说，就是快速的求一个幂式的模(余)。在程序设计过程中，经常要去求一些大数对于某个数的余数，为了得到更快、计算范围更大的算法，产生了快速幂取模算法。快速幂实际上是求解形如：an%b这种形式。其中a和n可能会很大。普通解法时间复杂度为阅读全文

posted @ 2016-10-31 20:06 曹孟德阅读(171) 评论(0) 推荐(0)

交叉验证

摘要：在建立分类模型时，交叉验证(Cross Validation)简称为CV，CV是用来验证分类器的性能。它的主体思想是将原始数据进行分组，一部分作为训练集，一部分作为验证集。利用训练集训练出模型，利用验证集来测试模型，以评估分类模型的性能。训练数据上的误差叫做训练误差，它对算法模型的评价过于乐观。利阅读全文

posted @ 2016-10-31 15:34 曹孟德阅读(3804) 评论(0) 推荐(0)

样本分类问题

摘要：一 lris 数据集 lris数据集是经典的机器学习数据集，它源自于20世界30年代对花朵特征的统计数据。测量的每个花的特征数据如下： 1 花萼长度 sepal length (cm) 2 花萼宽度 sepal width (cm) 3 花瓣长度 petal length (cm) 4 花瓣宽度 p 阅读全文

posted @ 2016-10-27 20:22 曹孟德阅读(1537) 评论(0) 推荐(0)

基于物品属性的过滤

摘要：之前学习了基于协同过滤的推荐。在写同意后过滤中，通过和你购买了同样的物品的人也购买了其他物品来推荐。协同过滤的难点包括数据稀疏问题和扩展问题。另一个问题是基于协同过滤的推荐倾向于推荐已经流行的商品。这种情况可能导致‘富者越富贫者越贫’。流行音乐平台Pandora的推荐基于一种称为音乐基因的项目分析阅读全文

posted @ 2016-10-26 10:14 曹孟德阅读(370) 评论(0) 推荐(0)

第一个极小的机器学习的应用

摘要：现在给出一个Web统计信息，他们存储着每小时的访问次数。每一行包含连续的小时和信息，以及该小时Web的访问次数。现在要解决的问题是，估计在何时访问量达到基础设施的极限。极限数据是每小时100000次访问。 1.读取数据：其中，x表示小时，y表示访问量。 2.预处理和清洗数据：结果显示含有8个控值阅读全文

posted @ 2016-10-25 11:29 曹孟德阅读(498) 评论(0) 推荐(0)

基于物品过滤的Slope One 算法

摘要：Slope One 算法是由 Daniel Lemire 教授在 2005 年提出的一个 Item-Based 推荐算法。他的主要优点是简单，易于扩展。实际上有多个Slope One算法，在此主要学习加权的Slope One算法。它将分为两步，第一步为计算所有物品间的偏差，第二步利用偏差进行预测阅读全文

posted @ 2016-10-24 20:55 曹孟德阅读(295) 评论(0) 推荐(0)

协同过滤-基于物品的过滤

摘要：现在假设你有100万个用户，每次对一个用户进行一次推荐时，需要计算100万次距离。如果每一秒需要进行多次推荐的话计算次数会十分巨大，系统会很慢。正式的说话是，基于令居的推荐系统的主要缺点是延迟性太差。 1 ）基于用户的过滤的两个主要问题： 1.扩展性问题：随着用户数量的增大，计算量会增大，基于用户阅读全文

posted @ 2016-10-23 17:51 曹孟德阅读(707) 评论(0) 推荐(0)

协同过滤-显式评级和隐式评级

摘要：显式评级：显式评级是指用户显式的给出物品的评价结果，例如直接打分显式评级存在的问题： 1 用户大多具有懒惰性，不愿意对物品进行评级：例如大部分人对购买的物品不愿意给出评价，这体现了一种用户懒惰行为 2 用户可能撒谎或者只给出部分信息：如果某人克服了懒惰性，真的对物品进行评分，该用户也可能撒谎 3 阅读全文

posted @ 2016-10-23 15:43 曹孟德阅读(878) 评论(0) 推荐(0)

python 中的 sorted

摘要：1) 输入help(sorted)可以得到下面类容： sorted(...) sorted(iterable, cmp=None, key=None, reverse=False) --> new sorted list sorted 可以对任意一个可迭代序列进行排序。如下： sorted对对迭代序阅读全文

posted @ 2016-10-20 10:13 曹孟德阅读(349) 评论(0) 推荐(0)

协同过滤-爱你所爱

摘要：协同过滤，之所以协同是因为该方法是基于其他用户进行推荐的。工作流程如下：假设我们的任务是向你推荐一本书。我们会在网络上搜索与你相似兴趣的用户。一旦找到了这个用户，就看看这个用户喜欢的书，然后将其推荐给你。如何寻找相似用户？一般而言，通过计算两个用户的距离，两个用户距离越小则相似度越高。先来看距离的阅读全文

posted @ 2016-10-19 22:00 曹孟德阅读(312) 评论(0) 推荐(0)

NumPy简介

摘要：标准Python中一般使用列表保存值，可以当做数组来使用，但是由于列表的元素可以是任何对象，因此列表中保存的是数组的指针。这样为了保存一组简单的数据而需要大量的指针和对象。对于数值运算来说，这种结构显然浪费啦内存和CPU计算时间。 NumPy的出现弥补啦这些不足。NumPy提供了两种基本对象： 1 阅读全文

posted @ 2016-10-18 21:06 曹孟德阅读(683) 评论(0) 推荐(0)

python中的re模块

摘要：re模块包含对正则表达式的支持.正则表达式是可以匹配文本片段的模式，最简单的正则表达式就是普通的字符串，可以匹配其自身。一正则表达式中的元字符介绍： . 称为通配符，可以匹配任何字符（除了换行符） ^ 脱字符，匹配字符串的开头 $ 匹配字符串的结尾 * 匹配前面出现的正则表达式符号0次到多次 + 阅读全文

posted @ 2016-10-18 11:55 曹孟德阅读(378) 评论(0) 推荐(0)

曹孟德

10 2016 档案

公告