03 2016 档案
摘要:大数据风控指标介绍2016-03-24 大林1查准率与查全率先说个例子,申请人有400个,其中有160个是好人,240个是坏人。我们用一个模型A,挑出了100个好人,其中真正的好人是80个,剩下20个是漏网之鱼。我们定义一个“查准率”(precision),为挑出来的...
阅读全文
摘要:如何确定Yarn中容器Container,Mapreduce相关参数的内存设置,对于初始集群,由于不知道集群的类型(如cpu密集、内存密集)我们需要根据经验提供给我们一个参考配置值,来作为基础的配置。完成这一任务有两种方式,确定YARN和MapReduce的内存设置,...
阅读全文
摘要:不要在linux上启用net.ipv4.tcp_tw_recycle参数发布于 2015/07/27 莿鸟栖草堂本文为翻译英文BLOG《Coping with the TCP TIME-WAIT state on busy Linux servers》,但并非完整的翻...
阅读全文
摘要:比如RDD里的计算调用了别的组件类里的方法(比如hbase里的put方法),那么序列化时,会将该方法所属的对象的所有变量都序列化的,可能有些根本没有实现序列化导致直接报错。也就是spark的api没有做到用户无感知,在使用一些全局方法时还需自己控制。简单点的...
阅读全文
摘要:电商数据分析基础指标体系傅志华 傅志华 信息流、物流和资金流三大平台是电子商务的三个最为重要的平台。而电子商务信息系统最核心的能力是大数据能力,包括大数据处理、数据分析和数据挖掘能力。无论是电商平台(如淘宝)还是在电商平台上销售产品的卖家,都需要掌握大数据分...
阅读全文
摘要:在一个需要低延时响应的hbase集群中,使用hbase默认的客户端超时配置简直就是灾难。但是我们可以考虑在客户端上加上如下几个参数,去改变这种状况:1. hbase.rpc.timeout: RPC timeout, The default 60s, 可以修改为500...
阅读全文
摘要:机器学习路线图1. 引言 最近google的阿尔法狗大战李世石刷屏了,闲下来时也了解点机器学习or深度学习的理论2. 机器学习关注问题并非所有的问题都适合用机器学习...
阅读全文
摘要:序列化对单例的破坏本文将通过实例+阅读Java源码的方式介绍序列化是如何破坏单例模式的,以及如何避免序列化对...
阅读全文
摘要:在hadoop集群启用权限控制后,发现job运行日志的ui访问不了, User [dr.who] is not authorized to view the logs for application原因 Resource Manager UI的默认用户dr.who权限...
阅读全文
摘要:今天在测试集群用的mysql上,遇到个权限的问题:SQLException : SQL state: 42000 com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Access denied for ...
阅读全文

浙公网安备 33010602011771号