随笔档案「2015年4月」 - dayday+up

MapReduce和Hadoop流

摘要：MapReduce:分布式计算的框架MapReduce是一个软件框架，可以将单个计算作业分配给多台计算机执行。 MapReduce在大量节点组成的集群上运行。它的工作流程是：单个作业被分成很多小份，输入数据也被切片分发到每个节点，各个节点只在本地数据上做运算，对应的代码称为mapper，这个过程被... 阅读全文

posted @ 2015-04-27 14:50 dayday+up 阅读(258) 评论(0) 推荐(0)

PIL：Python Imaging Library(图像处理标准库)和Qrcode:二维码生成

摘要：安装PILMac或Linux安装命令：sudo easy_install PIL如果报错：fatal error: 'freetype/fterrors.h' file not foundMac下所依赖的FreeType链接变更问题，解决如下：ln -s /usr/local/include/fre... 阅读全文

posted @ 2015-04-25 15:03 dayday+up 阅读(1589) 评论(0) 推荐(0)

使用Apriori算法进行关联分析

摘要：关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式：频繁项集或者关联规则。频繁项集是指经常出现在一块的物品的集合，关联规则暗示两种物品之间可能存在很强的关系。一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。可信度或置信度是针对一条诸如{尿布}->{葡萄酒}的关联规则... 阅读全文

posted @ 2015-04-21 16:34 dayday+up 阅读(696) 评论(0) 推荐(0)

AdaBoost

摘要：AdaBoost是adaptive boosting的缩写，其运行过程如下：1.训练数据中得每个样本，并赋予其一个权重，这些权重构成了向量D。一开始，这些权重都初始化成相等值。2.首先再训练数据上训练出一个弱分类器并计算改分类器的错误率，然后在同一数据集上再次训练弱分类器。3.在分类器的第二次训练中... 阅读全文

posted @ 2015-04-20 17:18 dayday+up 阅读(328) 评论(0) 推荐(0)

从Excel中读取数据(python-xlrd)

摘要：从Excel中读取数据(python-xlrd) 1、导入模块import xlrd 2、打开Excel文件读取数据data = xlrd.open_workbook('excelFile.xls') 3、使用技巧获取一个工作表 table = data.sheets()[0] #通过索引顺序获取t... 阅读全文

posted @ 2015-04-02 14:40 dayday+up 阅读(486) 评论(0) 推荐(0)

准确率(Precision),召回率(Recall)以及综合评价指标(F1-Measure)

摘要：准确率和召回率是数据挖掘中预测，互联网中得搜索引擎等经常涉及的两个概念和指标。准确率：又称“精度”，“正确率”召回率：又称“查全率”以检索为例，可以把搜索情况用下图表示：相关不相关检索到AB未检索到CDA:检索到的，相关的B:检索到的，但是不相关的C:未检索到的，但却是相关的D:未检索到的，也不相关... 阅读全文

posted @ 2015-04-01 17:58 dayday+up 阅读(629) 评论(0) 推荐(0)

K-means算法-聚类

摘要：算法过程如下：1）从N个文档随机选取K个文档作为质心2）对剩余的每个文档测量其到每个质心的距离，并把它归到最近的质心的类3）重新计算已经得到的个各类的质心4）迭代2~3步直至新的质心与原质心相等或小于指定阈值，算法结束优点：1.算法快速，简单 2.对大数据集有较高的效率并且是可伸缩性的 ... 阅读全文

posted @ 2015-04-01 09:58 dayday+up 阅读(216) 评论(0) 推荐(0)

dayday+up

04 2015 档案

公告