04 2015 档案
摘要:MapReduce:分布式计算的框架MapReduce是一个软件框架,可以将单个计算作业分配给多台计算机执行。 MapReduce在大量节点组成的集群上运行。它的工作流程是:单个作业被分成很多小份,输入数据也被切片分发到每个节点,各个节点只在本地数据上做运算,对应的代码称为mapper,这个过程被...
阅读全文
摘要:安装PILMac或Linux安装命令:sudo easy_install PIL如果报错:fatal error: 'freetype/fterrors.h' file not foundMac下所依赖的FreeType链接变更问题,解决如下:ln -s /usr/local/include/fre...
阅读全文
摘要:关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集或者关联规则。频繁项集是指经常出现在一块的物品的集合,关联规则暗示两种物品之间可能存在很强的关系。一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。可信度或置信度是针对一条诸如{尿布}->{葡萄酒}的关联规则...
阅读全文
摘要:AdaBoost是adaptive boosting的缩写,其运行过程如下:1.训练数据中得每个样本,并赋予其一个权重,这些权重构成了向量D。一开始,这些权重都初始化成相等值。2.首先再训练数据上训练出一个弱分类器并计算改分类器的错误率,然后在同一数据集上再次训练弱分类器。3.在分类器的第二次训练中...
阅读全文
摘要:从Excel中读取数据(python-xlrd) 1、导入模块import xlrd 2、打开Excel文件读取数据data = xlrd.open_workbook('excelFile.xls') 3、使用技巧获取一个工作表 table = data.sheets()[0] #通过索引顺序获取t...
阅读全文
摘要:准确率和召回率是数据挖掘中预测,互联网中得搜索引擎等经常涉及的两个概念和指标。准确率:又称“精度”,“正确率”召回率:又称“查全率”以检索为例,可以把搜索情况用下图表示:相关不相关检索到AB未检索到CDA:检索到的,相关的B:检索到的,但是不相关的C:未检索到的,但却是相关的D:未检索到的,也不相关...
阅读全文
摘要:算法过程如下:1)从N个文档随机选取K个文档作为质心2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类3)重新计算已经得到的个各类的质心4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束优点:1.算法快速,简单 2.对大数据集有较高的效率并且是可伸缩性的 ...
阅读全文

浙公网安备 33010602011771号