2015年4月17日

摘要: A = load '/user/cloudera/lab/mydata' usingPigStorage() as (a,b,c);如果写成 A=load 就会出现 [main]ERROR org.apache.pig.tools.grunt.Grunt - ERRO... 阅读全文

posted @ 2015-04-17 08:04 bob.dong 阅读(39) 评论(0) 推荐(0) 编辑

2015年4月2日

摘要: 指数分布随机事件的间隔事件符合指数分布。lamda 单位事件发生事件的个数。 每分钟发生lam个事件。3分钟后发生一次事件的概率 = lam*exp(-lam*3) 用PDF来算 如果问3分钟内发生一次事件的概率 = 1 - exp(-lam *3), 用CDF 来算泊松分布单位时间内随机事件... 阅读全文

posted @ 2015-04-02 14:51 bob.dong 阅读(195) 评论(0) 推荐(0) 编辑

2015年3月20日

摘要: The Cdf class can be initialised with xs, and ys. It's differentfrom initialisd by Items which ys is actually probability, and willbe added up duri... 阅读全文

posted @ 2015-03-20 10:06 bob.dong 阅读(48) 评论(0) 推荐(0) 编辑

2015年3月19日

摘要: 44 个baby 出生时间间隔是否满足 指数分布。Learned:调用父类初始化。in 子类 __init__(), 调用 父类名字.__init__(self)从文件中读出的字符串比较,读出的行包括不可显示字符,所以不能用 == 比较, 用 line.find(target_str)> -1... 阅读全文

posted @ 2015-03-19 17:38 bob.dong 阅读(68) 评论(0) 推荐(0) 编辑

2015年3月18日

摘要: pythonrandom.expovariate(lam) 也就是实现了特征值为 lam的指数分布CDF的逆函数来生成一系列 x。当lam=2, x 分布的特点是 max(x) 0.9这个分组,也就是说绝大多数点都集中在cdf曲线右上侧。 参见图二指数分布的模拟 expovariate" t... 阅读全文

posted @ 2015-03-18 15:48 bob.dong 阅读(1077) 评论(0) 推荐(0) 编辑

2015年2月22日

摘要: 解惑原文地址:巴洛克和哥特式建筑的区别作者:farewellly巴洛克圆顶,厚重繁复,装饰性,涂绘性,利用光影,模糊分界线,明暗法前凸后退,有运动幻觉,(天花板的饰物满得快要溢出来,向观众倾斜,楼梯好象向下流淌),整体感觉是向下坠落.基压,变形,讽刺当时过于繁复的年代。歌特出现得比巴洛克早得多... 阅读全文

posted @ 2015-02-22 10:13 bob.dong 阅读(544) 评论(0) 推荐(0) 编辑

2015年2月21日

摘要: 统计中的过采样(oversampling)可能会导致结果向大数据集偏差(bias),需要进行矫正(unbias)才能得到正确地结果。下面用一个例子说明:我们要统计一个学校某年级平均每个班多少人。第一个方是从该年级学生中随机选出1/10,问他们自己班级多少人。得到结果如下:1个人说 自己班级有 ... 阅读全文

posted @ 2015-02-21 10:29 bob.dong 阅读(219) 评论(0) 推荐(0) 编辑

2015年1月20日

摘要: 操作dict的时候遇到这样的问题 values() 返回列表, itervalues() 返回iterator. 但是很多应用场景都一样。有非此不可的例子吗?sum(d.values()) == sum(d.itervalues), max() 也一样答案是, list 占用内存,因为在调用... 阅读全文

posted @ 2015-01-20 11:46 bob.dong 阅读(91) 评论(0) 推荐(0) 编辑

2015年1月19日

摘要: zip(list1, tuple1, list2... ) , 输出一个 list, 每个元素是一个 tuple.输出list 长度与输入参数中最小长度相同,tuple 长度与参数个数相同。zip(*list_l) *list_l 表示把 list_l 的每个元素作为参数传给 zip(), 类... 阅读全文

posted @ 2015-01-19 22:21 bob.dong 阅读(62) 评论(0) 推荐(0) 编辑

2015年1月17日

摘要: 在python 2 print 是 statement, 也有build-in function print(),python 3 只有 内置函数python 没有 array, 可以用list, tuple, 代替 python数组的使用 说的比较好。 另一个详细解说list 使用的 Py... 阅读全文

posted @ 2015-01-17 20:22 bob.dong 阅读(75) 评论(0) 推荐(0) 编辑