摘要: 来自为知笔记(Wiz) 阅读全文
posted @ 2016-02-29 13:32 rocky_24 阅读(552) 评论(0) 推荐(0) 编辑
摘要: 淘宝在2011年之前所有的后端持久化存储基本上与我们所认知的意义, 大量存于 mysql 。少量 oracle mongdb 等,使用mysql 的原因相信各位也很熟悉了。 开源、社区庞大、解决方案多种、分库分表做超过超过 500W 数据的扩容、再到读写分离、再到专用图片服务器、再到专业后端缓存系统、二级缓存等等。 但是由于业务的发展。产生了如下变化: 1 数据量越来越大,用户的激增从... 阅读全文
posted @ 2016-02-29 12:51 rocky_24 阅读(1017) 评论(0) 推荐(0) 编辑
摘要: 其实查询无非是一个 HBase 的 RPC 计算公式 、然后给API 提供值。RPCs = (Rows * Cols per Row) / Min(Cols per Row, Batch Size)/ Scanner Caching 。Hadoop的MR运算中,Hbase可以作为输入数据源参与运算,其中作为HTable的迭代器Scan有几个使用技巧涉及的方法如下:public void setBa... 阅读全文
posted @ 2016-02-24 14:39 rocky_24 阅读(2402) 评论(0) 推荐(0) 编辑
摘要: 客户端在进行put、delete、get等操作的时候,它都需要数据到底存在哪个Region Server上面,这个定位的操作是通过Connection.locateRegion方法来完成的。loc = hConnection.locateRegion(this.tableName, row.getRow()); 这里我们首先要讲hbase的两张元数据 表-ROOT-和.META. 表,它们一个保... 阅读全文
posted @ 2016-02-24 11:33 rocky_24 阅读(773) 评论(0) 推荐(0) 编辑
摘要: 户端调优的方法里面无非就这么几种:1)关闭autoFlush2)关闭WAL日志3)把writeBufferSize设大一点,一般说是设置成5MB 经过实践,就第二条关闭日志的效果比较明显,其它的效果都不明显,因为提交的过程是异步的,所以提交的时候占用的时间并不多,提交到server端后,server还有一个写入的队列,(⊙o⊙)… 让人想起小米手机那恶心的排队了。。。所以大规模写入数据... 阅读全文
posted @ 2016-02-24 11:03 rocky_24 阅读(283) 评论(0) 推荐(0) 编辑
摘要: 原文如下地址 :http://www.cnblogs.com/cenyuhai/p/3650943.html看源码很久了,终于开始动手写博客了,为什么是先写负载均衡呢,因为一个室友入职新公司了,然后他们遇到这方面的问题,某些机器的硬盘使用明显比别的机器要多,每次用hadoop做完负载均衡,很快又变回来了。首先我们先看HMaster当中怎么初始化Balancer的,把集群的状态穿进去,设置maste... 阅读全文
posted @ 2016-02-24 10:44 rocky_24 阅读(354) 评论(0) 推荐(0) 编辑
摘要: 1 下载 ZKwget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.7/zookeeper-3.4.7.tar.gz2 解压tar -zxvf zookeeper-3.4.7.tar.gz3 修改配置文件 cp zoo_sample.cfg zoo.cfg mv zookeeper-3.4.6/conf/zoo_sample.... 阅读全文
posted @ 2015-12-25 17:23 rocky_24 阅读(175) 评论(0) 推荐(0) 编辑
摘要: 实际上这是个 HDFS 的工具类部分代码。 首先public static Configuration configuration = null;public static FileSystem fileSystem = null;static { try { if (null == configuration) { configuration = new... 阅读全文
posted @ 2015-12-09 11:59 rocky_24 阅读(1774) 评论(0) 推荐(0) 编辑
摘要: 我所理解的大数据个性化推荐。好文分享 一、写在之前的题外话缘起。想起要写这篇文章,一方面是昨天终于把项亮写的《推荐系统实践》给看完了,另一方面是自己负责的推荐系统项目已经处于一个多版本迭代的阶段了,并且从最近的AB测试效果来看,新提交的算法模型还是有一定的进步的,如今已经把流量全部切换到了新算法中。所以,结合看书的一些思考,以及实际操作的一些感想,总是有一些想要表达、分享的东西,不吐不快啊~~ 哈... 阅读全文
posted @ 2015-11-09 11:37 rocky_24 阅读(1406) 评论(0) 推荐(0) 编辑
摘要: 数据的生成可以看做一连串发生的离散事件, 这些事件流会伴随着不同的数据流、操作和分析,都会由一个通用的软件框架和基础设施来处理。 Storm 是 实时流计算框架之一。它提供了可容错分布式计算所要求的基本原句和保障机制,可以满足大容量关键业务应用需求。是一套技术的整合。来自为知笔记(Wiz)附件列... 阅读全文
posted @ 2015-10-26 10:52 rocky_24 阅读(303) 评论(0) 推荐(0) 编辑
希望祖国繁荣,富强! God has given me a gift. Only one. I am the most complete fighter in the world. My whole life, I have trained. I must prove I am worthy of someting. rocky_24