zourui4271

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 34 35 36 37 38 39 40 41 42 ··· 55 下一页

2017年8月13日 #

摘要: 数据模型的要求 1.要直观的模拟真实世界 2.容易被人理解 3.便于计算实现 一、低质量建模 Steve Hoberman的《Data Model Scorecard》一书中详细罗列了低质量建模的十宗罪 1. 没有准确的捕获到需求 这个属于数据建模最大的问题。通常由于需求调研不完备,需求理解不充分, 阅读全文
posted @ 2017-08-13 13:58 zourui4271 阅读(753) 评论(1) 推荐(1)

摘要: 这里有两个问题,第一个问题,预测是怎么做出来的?第二个问题是:对于同一件事情它是预测出不同的结果,什么结果是好与坏?第一个问题是怎么预测的问题,第二个问题是预测的效果好与坏的问题。这就引出了我的主题,《机器学习对销售预测的研究》。 机器学习是常用的日常分析的方法,另一方面机器学习在海量数据中挖掘其中 阅读全文
posted @ 2017-08-13 10:41 zourui4271 阅读(1310) 评论(0) 推荐(1)

2017年8月7日 #

摘要: 情感分析就是分析一句话说得是很主观还是客观描述,分析这句话表达的是积极的情绪还是消极的情绪。原理比如这么一句话:“这手机的画面极好,操作也比较流畅。不过拍照真的太烂了!系统也不好。” ① 情感词 要分析一句话是积极的还是消极的,最简单最基础的方法就是找出句子里面的情感词,积极的情感词比如:赞,好,顺 阅读全文
posted @ 2017-08-07 11:12 zourui4271 阅读(2613) 评论(0) 推荐(0)

2017年6月29日 #

摘要: 交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓 阅读全文
posted @ 2017-06-29 19:20 zourui4271 阅读(213) 评论(0) 推荐(0)

2017年6月16日 #

摘要: 一、关联规则的定义和属性 考察一些涉及许多物品的事务:事务1 中出现了物品甲,事务2 中出现了物品乙,事务3 中则同时出现了物品甲和乙。那么,物品甲和乙在事务中的出现相互之间是否有规律可循呢?在数据库的知识发现中,关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说,关联规则 阅读全文
posted @ 2017-06-16 15:00 zourui4271 阅读(1187) 评论(0) 推荐(0)

2017年6月13日 #

摘要: Apriori算法是一种最有影响的挖掘 0-1 布尔关联规则频繁项集的算法。这种算法利用了频繁项集性质的先验知识(因此叫做priori)。Apriori使用了自底向上的实现方式(如果集合 I 不是频繁项集,那么包含 I 的更大的集合也不可能是频繁项集),k – 1 项集用于探索 k 项集。首先,找出 阅读全文
posted @ 2017-06-13 11:24 zourui4271 阅读(265) 评论(0) 推荐(0)

2017年6月3日 #

摘要: 这里要理解虚拟变量的真正含义:是要体现出不同省份之间的差异,而并不是所谓的控制变量。而其要充分理解多元线性回归当中参数估计量的真正含义:是偏回归系数,即自变量的边际量,表明了在其他条件不变的情况下,自变量每增加一个单位因变量的变化。如果按照你的理解假设X为地区变量,X的取值为1代表山西;2代表陕西; 阅读全文
posted @ 2017-06-03 11:39 zourui4271 阅读(1049) 评论(0) 推荐(0)

2017年5月28日 #

摘要: 最大似然法,英文名称是Maximum Likelihood Method,在统计中应用很广。这个方法的思想最早由高斯提出来,后来由菲舍加以推广并命名。 最大似然法是要解决这样一个问题:给定一组数据和一个参数待定的模型,如何确定模型的参数,使得这个确定参数后的模型在所有模型中产生已知数据的概率最大。通 阅读全文
posted @ 2017-05-28 16:36 zourui4271 阅读(1111) 评论(0) 推荐(0)

2017年5月18日 #

摘要: (1)简单的说: 由driver向集群申请资源,集群分配资源,启动executor。driver将spark应用程序的代码和文件传送给executor。executor上运行task,运行完之后将结果返回给driver或者写入外界。 (2)复杂点说: 提交应用程序,构建sparkContext,构建 阅读全文
posted @ 2017-05-18 14:22 zourui4271 阅读(142) 评论(0) 推荐(0)

2017年4月29日 #

摘要: DagScheduler 和 TaskScheduler 的任务交接 spark 调度器分为两个部分, 一个是 DagScheduler, 一个是 TaskScheduler, DagScheduler 主要是用来把一个 Job 根据宽依赖划分为多个Stage(阶段), 对于划分出来的每个 stag 阅读全文
posted @ 2017-04-29 14:54 zourui4271 阅读(455) 评论(0) 推荐(0)

上一页 1 ··· 34 35 36 37 38 39 40 41 42 ··· 55 下一页