摘要: 并不搞机器学习,只是凭兴趣随便谈谈。loss function翻译为损失函数总觉得不妥,但也没有更好的翻译(或许就叫失函数更好),其实很多英文术语最好就是不翻译。又称为cost function,用来度量预测错误的程度。对任意模型的输入输出X和Y,在其联合分布P(X,Y)下,总的loss为各分布点按... 阅读全文
posted @ 2015-11-19 00:44 fernnix 阅读(315) 评论(0) 推荐(0) 编辑
摘要: 不是搞算法的,但最近用到这个,所以按个人的理解总结一下要点,可能有理解上的错误,欢迎指正批评。目前场景是用于可能性预测。1.逻辑回归模型计算出来的是相对可能性,而非概率,所以非常适合topN选择等问题;如果用于分类,则其用于分割的阈值通过指标参数确定。总体上来说,更适合求topN。2.仅能用于线性问... 阅读全文
posted @ 2014-11-16 00:23 fernnix 阅读(4361) 评论(0) 推荐(0) 编辑
摘要: 参考译文:http://www.importnew.com/2617.htmlimportnew的很多译文真的很赞!赞@疯狂编码中的xiaoY虽然有超赞的译文,但还是认为某些章节最好看下原文。为了便于回顾,我这里也按自己的思路再整理下。需求背景:解决海量数据的交互性ad-hoc查询。Dremel不是为了成为MR的替代品,而是经常与它协同使用来分析MR管道的输出或者创建大规模计算的原型系统。所谓交互式查询,最常见的是进行一些类似count等聚合操作,或再做一些类似top-K的排序,通常返回的结果量较小或适中,对需要返回大规模数据集的操作,宜使用MR直接在GFS或Bigtable上进行处理。从某种 阅读全文
posted @ 2014-02-09 15:55 fernnix 阅读(558) 评论(0) 推荐(0) 编辑
摘要: google 增量计算 索引库建库 阅读全文
posted @ 2014-02-08 23:14 fernnix 阅读(1765) 评论(1) 推荐(0) 编辑
摘要: 先说点题外,今天看到有人混淆buffer和cache两个概念,在英语世界,二者其实是有严格区分的:A buffer is something that has yet to be "written" to disk.A cache is something that has been "read" from disk and stored for latter use.言归正传:===============行结构====================innodb是典型的行存储引擎,它有两种行纪录格式,现在使用的格式叫compact格式,以前(5.0前 阅读全文
posted @ 2014-02-04 23:44 fernnix 阅读(420) 评论(0) 推荐(0) 编辑
摘要: 《不要恐惧抑郁症》读后纪录:这本书是91年由德国人努贝尔首次出版。以下内容不完全是摘抄,有些根据自己的理解和认同做了修改。作者认为导致现代抑郁症患者增加以及年轻化是因为:1.信息泛滥:对很多人,包括本来积极有野心的人,容易在信息洪流中出现迷惘、无助、挫败的感觉2.增速:任何东西都在增速,一夜暴富的例子让很多人变的急于求成而不能忍耐必由的过程,而如果所追求的结果不能很快达成就会产生loser的感觉3.教育与性格:高期望与现实之间的鸿沟越大,越容易抑郁抑郁症的主要表现:1.思维:悲观解释模式,把失败和问题的责任完全归咎于自己2.情绪:无感觉的感觉,无泪的悲伤,失去信念,原来欢乐的一切被否定3.行为 阅读全文
posted @ 2014-02-04 23:39 fernnix 阅读(545) 评论(0) 推荐(0) 编辑
摘要: 索引的目的是为了提升查询性能,但会牺牲更新、插入等几乎所有其它操作的性能。所以在建立索引时,一定要根据实际应用进行分析,做到有的放失。innodb的数据页是按B+树进行索引的(中间节点叫做索引页),在查找具体的行时,先通过B+树找到对应的页,然后读入页到内存,再在内存中进行查找。一般使用B+树进行数据库索引时,扇出数是很高的,因为要保证B+树的高度受控制,使每次查询不至于太多次磁盘IO操作(实际上,非叶子节点索引往往可以全内存存储),同时也使节点分裂合并操作(需要磁盘访问)不要太频繁。聚集索引(clustered index)每张表按主键唯一构造的一个索引,其叶子节点称为数据页,存放行纪录数据 阅读全文
posted @ 2014-02-04 23:28 fernnix 阅读(444) 评论(0) 推荐(0) 编辑
摘要: Pregel 图算法 阅读全文
posted @ 2014-02-04 12:12 fernnix 阅读(818) 评论(0) 推荐(0) 编辑
摘要: 算法导论 图算法 阅读全文
posted @ 2014-02-04 11:33 fernnix 阅读(949) 评论(0) 推荐(0) 编辑