曹孟德

2016年11月20日

摘要： 1 np.arange(),类似于range，通过指定开始值，终值和步长来创建表示等差数列的一维数组，注意该函数和range一样结果不包含终值。 2 np.linspace()函数，与上面np.arange不同的是，该函数第三个参数指定的是元素个数，它表示给定起始值和终点值以及元素个数，生成一个一维阅读全文

posted @ 2016-11-20 16:29 曹孟德阅读(19277) 评论(0) 推荐(4)

2016年11月16日

朴素贝叶斯

摘要：利用近邻方法，很难量化分类的置信度。而基于概率的分类方法--贝叶斯方法，不仅可以分类，还可以给出分类概率。近邻方法别称为惰性学习方法(lazy learner)，当给出数据时，这些分类器只是将他们保存或者记录下来，每次对实例进行训练时，这些分类器都会遍历整个数据集，所以分类器的速度往往跟不上，贝叶斯阅读全文

posted @ 2016-11-16 17:33 曹孟德阅读(552) 评论(0) 推荐(0)

2016年11月2日

聚类---寻找相关帖子

摘要：通过少量训练数据及其对应类别，我们训练出了能对未来数据分类的模型，这种方法叫做有监督学习，这是因为这个学习过程是在老师的监督下完成的，这个老师就是数据的正确类别。当我们没有标签可以让分类模型去学习时，我们将使用聚类来实现这个目标。聚类使得相同数据处于同一簇中，不相似数据在不同簇中。然而在寻找相似帖子阅读全文

posted @ 2016-11-02 20:01 曹孟德阅读(244) 评论(0) 推荐(0)

2016年11月1日

最近邻分类器项目-分类小麦种子

摘要：数据给出的是小麦的特征数据以及类型。每一个样本由7个特征属性组成，即可以看做7维空间的一个点。我们通过计算两个样本的距离来度量样品间的相似度。在分类时，采用一个简单的规则：对于一个新的样本，我们在数据集中找到最接近它的点，然后将该样本归为和它最近点的同一标签。并采用10折交叉验证。结果得到： th 阅读全文

posted @ 2016-11-01 16:16 曹孟德阅读(613) 评论(0) 推荐(0)

2016年10月31日

快速幂介绍及其模板

摘要： 1.数的快速幂问题：所谓的快速幂，实际上是快速幂取模的缩写，简单的说，就是快速的求一个幂式的模(余)。在程序设计过程中，经常要去求一些大数对于某个数的余数，为了得到更快、计算范围更大的算法，产生了快速幂取模算法。快速幂实际上是求解形如：an%b这种形式。其中a和n可能会很大。普通解法时间复杂度为阅读全文

posted @ 2016-10-31 20:06 曹孟德阅读(169) 评论(0) 推荐(0)

交叉验证

摘要：在建立分类模型时，交叉验证(Cross Validation)简称为CV，CV是用来验证分类器的性能。它的主体思想是将原始数据进行分组，一部分作为训练集，一部分作为验证集。利用训练集训练出模型，利用验证集来测试模型，以评估分类模型的性能。训练数据上的误差叫做训练误差，它对算法模型的评价过于乐观。利阅读全文

posted @ 2016-10-31 15:34 曹孟德阅读(3797) 评论(0) 推荐(0)

2016年10月27日

样本分类问题

摘要：一 lris 数据集 lris数据集是经典的机器学习数据集，它源自于20世界30年代对花朵特征的统计数据。测量的每个花的特征数据如下： 1 花萼长度 sepal length (cm) 2 花萼宽度 sepal width (cm) 3 花瓣长度 petal length (cm) 4 花瓣宽度 p 阅读全文

posted @ 2016-10-27 20:22 曹孟德阅读(1535) 评论(0) 推荐(0)

2016年10月26日

基于物品属性的过滤

摘要：之前学习了基于协同过滤的推荐。在写同意后过滤中，通过和你购买了同样的物品的人也购买了其他物品来推荐。协同过滤的难点包括数据稀疏问题和扩展问题。另一个问题是基于协同过滤的推荐倾向于推荐已经流行的商品。这种情况可能导致‘富者越富贫者越贫’。流行音乐平台Pandora的推荐基于一种称为音乐基因的项目分析阅读全文

posted @ 2016-10-26 10:14 曹孟德阅读(368) 评论(0) 推荐(0)

2016年10月25日

第一个极小的机器学习的应用

摘要：现在给出一个Web统计信息，他们存储着每小时的访问次数。每一行包含连续的小时和信息，以及该小时Web的访问次数。现在要解决的问题是，估计在何时访问量达到基础设施的极限。极限数据是每小时100000次访问。 1.读取数据：其中，x表示小时，y表示访问量。 2.预处理和清洗数据：结果显示含有8个控值阅读全文

posted @ 2016-10-25 11:29 曹孟德阅读(495) 评论(0) 推荐(0)

2016年10月24日

基于物品过滤的Slope One 算法

摘要： Slope One 算法是由 Daniel Lemire 教授在 2005 年提出的一个 Item-Based 推荐算法。他的主要优点是简单，易于扩展。实际上有多个Slope One算法，在此主要学习加权的Slope One算法。它将分为两步，第一步为计算所有物品间的偏差，第二步利用偏差进行预测阅读全文

posted @ 2016-10-24 20:55 曹孟德阅读(291) 评论(0) 推荐(0)

公告