摘要: spark的rdd进行groupby以后有时需要对value处理 可以这样处理: 之后可以循环处理 grouped里的对象,类似: 阅读全文
posted @ 2017-09-05 17:43 白神来了 阅读(1879) 评论(0) 推荐(0)
摘要: 用python的mysqldb包 执行insert语句cur.execute(sql)之后还需要 con.commit() 否则id增长了却没有数据 阅读全文
posted @ 2017-09-05 17:36 白神来了 阅读(175) 评论(0) 推荐(0)
摘要: 设置cassandra.yamlpython-driver的设置:http://datastax.github.io/python-driver/api/cassandra.html#cassandra.OperationTimedOut更改default_timeout:http://datast 阅读全文
posted @ 2017-08-25 15:27 白神来了 阅读(844) 评论(0) 推荐(0)
摘要: 最近公司一台线上服务器的hbase的regionserver挂掉之后起不起来报错OOM。 这台机器同时装有cassandra,于是停掉cassandra释放内存,重启regionserver失败,同时cassandra再尝试启动也报错Caused by: java.io.IOException: j 阅读全文
posted @ 2017-08-25 15:17 白神来了 阅读(4697) 评论(0) 推荐(0)
摘要: 以前线上正常运行的oozie workflow这次最近没有数据输出,在hive的shell里执行sql有正确结果,用oozie不行 排除是有人动过权限的问题后 发现线上配置的hive-config.xml文件很久没有变过,重新拷贝了hiveserver2的hive-site.xml文件上传后解决问题 阅读全文
posted @ 2017-08-25 15:08 白神来了 阅读(419) 评论(0) 推荐(0)
摘要: 例子:对于性别,可取值的范围只有男女,并且男女可能各占50%数据,B树索引还是要取出一半的数据。相反,如果某个字段的取值范围很广,几乎没有重复,比如身份证号,此时使用B树索引较为合适。当取出的行数据占用表中大部分数据时,即使添加了B树索引,数据库如oracle、mysql也不会使用B树索引,很有可能 阅读全文
posted @ 2017-08-17 09:58 白神来了 阅读(252) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2016-12-02 16:39 白神来了 阅读(117) 评论(0) 推荐(0)
摘要: 数据组反映impala缓慢,先开始没有在意,后来发现确实比较慢于是实验,没有发现问题,最后才发现主节点比较快,其他节点impala查询都是卡主很久才出结果。 最坑爹的地方在于cm中什么都看不出来 阅读全文
posted @ 2016-12-02 16:29 白神来了 阅读(530) 评论(0) 推荐(0)
摘要: 之前试用了简书、csdn,用起来很不爽,自己也懒得用github或者wordpress搭一套,所以就来博客园啦,希望UI能再好看点。。。 阅读全文
posted @ 2016-08-04 09:33 白神来了 阅读(95) 评论(0) 推荐(0)