条件概率的精髓从这道题可以体现: 一个部件经销商从仓库购买部件。这些部件要么由A供应商生产,要么由B供应商生产,但部件上没有标识出是哪家供应商供应的。每次发货或每一批的所有零件都是由一个供应商生产的。平均来看,A供应商生产的产品中有2.5%的不合格品,B供应商生产的产品中有5.0%的不合格品。 仓库 Read More
继上一篇得到的初步数据,我们基本上已经得到了用于分类的数据了。接下来可以考虑建模了,建模可以有多种方法那么评估模型的最简单粗暴的方法就是匹配准确率。但是这次的评分规则是: 简单说下赛方为什么不用匹配准确率来评价模型,本身数据结构中“没得助学金”的个体已经占了85%左右的比例,如果计算整体的匹配率对好 Read More
极大似然在本科的概率课里面有提及,当时没有应用意识,根本就没有当成一回事,现在知道错了。ps废话讲完,回归正题 从总体来说下极大似然可以做什么:求参数值--非常直接描述(θ1*x1+θ2*x2+...+θn*xn)其中w代表参数,x代表的是变量,求得就是θ。--ps:这里的例子只是用于说明,实际遇到 Read More
问:udf在sparksql 里面的作用是什么呢? 答:oracle的存储过程会有用到定义函数,那么现在udf就相当于一个在sparksql用到的函数定义; 第二个问题udf是怎么实现的呢? registerFunction(name, f, returnType=StringType) name Read More