李梦蛟 - 博客园

hadoop1.0.0正式版发布了

摘要： 27 December, 2011: release 1.0.0 availableAfter six years of gestation, Hadoop reaches 1.0.0! This release is from the 0.20-security code line, and includes support for:securityHBase (append/hsynch/hflush, and security)webhdfs (with full support for security)performance enhanced access to local file 阅读全文

posted @ 2012-01-17 17:07 李梦蛟阅读(743) 评论(1) 推荐(0) 编辑

支持adppend的hadoop官方版本终于发布了

摘要： hadoop0.20.2以及以前的版本都没有append 和 sync的特性，根据字面意思理解，应该是写入数据不能追加，对我的影响是hbase一直不能使用hadoop的官方发布版，因为它不支持append特性，使用的话可能导致数据丢失。因此之前如果hbase想要使用的话，要么就去使用cloudera的hadoop版本或者是自行编译hadoop的一个支持append的分支版本，但是这个麻烦呀，另外也不知道这些分支版本会不会有bug，官方的支持怎样。现在这个担心终于结束了，刚于10月17号apache的官网发布了hadoop的0.20.205.0版本，查看了它的NEW FEATURES，2.HDF 阅读全文

posted @ 2011-10-26 13:24 李梦蛟阅读(1085) 评论(0) 推荐(0) 编辑

把BI团队从按用户需求开发的怪圈中解放出来

摘要：根据最近几年对BI的了解，以及同行的一些感叹，发现其实目前中国的BI推广还处在初级阶段，绝大部分公司还是按照传统的软件开发方式来实施的BI项目。即收集用户需求，按用户需求开发报表，那样的话BI项目就成了一个不折不扣的报表系统了。最近一直在考虑这个问题，如何跳出这个怪圈，也查阅了一些书籍，结合自己的一些想法，于是便有了此文。事实上问用户收集需求的时候，如果用户的水平不够高（事实上确实是这样），那么做报表是非常盲目的，甚至业务架构的很多是不合理的，即使是合理的，也是不利于BI的整体信息架构的。要想解决这个问题，还是得从用户身上着手，要想办法让用户最大程度的参与进来，让他们和BI团队绑成... 阅读全文

posted @ 2011-10-24 17:54 李梦蛟阅读(1287) 评论(6) 推荐(1) 编辑

使用hbase的Bulk Load

摘要： 1.首先配置$HADOOP_HOME下的conf/hadoop-env.sh文件，修改其中的HADOOP_CLASSPATH为如下export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/hadoop/hbase-0.90.3.jar:/hadoop/hbase/hbase-0.90.3-tests.jar:/hadoop/hbase/conf:/hadoop/hbase/lib/guava-r06.jar:/hadoop/hbase/lib/zookeeper-3.3.2.jar2.配置$HBASE_HOME下的conf/hbase-env.sh文件，修改其中的H 阅读全文

posted @ 2011-08-17 15:57 李梦蛟阅读(4807) 评论(0) 推荐(0) 编辑

关于kettle使用crontab+kitchen部署的一点波折

摘要：刚使用kettle不久，由于我们在kettle程序中使用了hive的驱动，因此在kitchen.sh中增加了hive驱动的一行classpath。写的脚本使用kitchen执行我们的job没有任何问题。但是用crontab做计划任务部署上去的时候，发现执行不了了，报错信息是找不到hive驱动。经过排查，基本确定问题出在classpath上，但是无论是在脚本里面把classpath补全还是在crontab中把classpath都没有解决问题。不经意查看kitchen.sh的时候，发现如下两行BASEDIR=`dirname $0`CLASSPATH=$BASEDIR才知道原来kitchen的c 阅读全文

posted @ 2011-08-11 15:29 李梦蛟阅读(5526) 评论(8) 推荐(0) 编辑

使用Ganglia对hadoop进行监控

摘要： Ganglia是一个监控服务器，集群的开源软件，能够用曲线图表现最近一个小时，最近一天，最近一周，最近一月，最近一年的服务器或者集群的cpu负载,内存,网络,硬盘等指标。Ganglia的强大在于：ganglia服务端能够通过一台客户端收集到同一个网段的所有客户端的数据，ganglia集群服务端能够通过一台服务端收集到它下属的所有客户端数据。这个体系设计表示一台服务器能够通过不同的分层能够管理上万台机器。这个功能是其他mrtg,nagios,cacti所不能比拟。因为hadoop的支持问题，我们推荐安装ganglia3.0.3。操作系统环境：CentOS5.2集群环境:namenode 192. 阅读全文

posted @ 2011-08-11 15:15 李梦蛟阅读(5706) 评论(1) 推荐(0) 编辑

关于拥有海量数据的电子商务网站的CRM系统建设底层存储实现的一点随想

摘要：最近在一直在研究hadoop的使用，主要是集中在数据仓库的应用这块。今天突然和一个业内的朋友聊起大型电子商务网站CRM系统建设的技术问题。CRM系统最基本的功能就是查询某个用户在我们网站进行的所有的操作，光这个需求，对于有千万级别用户的网站来说，设计起来就相当繁琐。比如查A用户在我们网站的所有交易订单记录，那么如果你是架构师，你会怎么设计?通常的想法还是按照用户建分库，分表，把不同的用户段的订单存放在不同的库中，从而可以拆分库的目的，这样从一定程度上来说确实可以解决问题，但是治标不治本，随着网站的继续交易，总有一天分库也会达到查询能力的极限，到时候只有继续拆分库，这是一个痛苦的轮回。今天我提出阅读全文

posted @ 2011-06-21 17:35 李梦蛟阅读(1716) 评论(4) 推荐(1) 编辑

hive 0.7.0 发布了

摘要：今天去关注了一下hadoop的官网，发现hive0.7.0发布了；其中有两个新特性非常有用，一个是可以创建索引了，另外一个是可以实现用户安全认证了。阅读全文

posted @ 2011-04-02 16:18 李梦蛟阅读(816) 评论(0) 推荐(0) 编辑

超级维度表处理（亿行数据级别）

摘要：最近在优化公司的数据仓库项目中ETL部分，发现有一处明显可以改进的地方，发出来和大家分享一下。在数据仓库中一个一个超级大维度表（1亿左右的记录），更新这个维度表的时候，采取的策略是最简单的1类渐变维度，即存在则更新，不存在则插入。原先的方式是在ETL过程中先查找这个大表本身，如果存在就打上update标记，不存在就打上insert标记，最后通过分支来分别插入和更新数据记录。每次执行这个job的时候... 阅读全文

posted @ 2010-09-08 16:04 李梦蛟阅读(2344) 评论(5) 推荐(0) 编辑

专注于中国的商业智能

导航

公告