随笔分类 -  大数据技术

SQLautoReview - 淘宝开源的SQL自动化审核
摘要:淘宝开源的SQLautoReview是一个SQL自动化审核的程序,三大功能:1,解析sqlmap,利用dom4j从xml文件解析sql语句,并插入数据库中。2,对sql语句进行分析,创建该语句的sql语句的索引脚本。3,对新生成的索引和原有(一般为线上)数据库的索引进行重用或者合并。该代码应用场景是对新应用中增加的sql语句,加入到线上数据库中,更新已有索引,提高效率。 阅读全文

posted @ 2014-01-10 15:29 sambazhu 阅读(1448) 评论(0) 推荐(0)

(转)Hadoop的安全机制研究
摘要:1.背景1.1 共享Hadoop集群当前大一点的公司都采用了共享Hadoop集群的模式,这种模式可以减小维护成本,且避免数据过度冗余,增加硬件成本。共享Hadoop是指:(1)管理员把研发人员分成若干个队列,每个队列分配一定量的资源,每个用户或者用户组只能使用某个队列中得资源;(2)HDFS上存有各种数据,有公用的,有机密的,不同的用户可以访问不同的数据。共享集群类似于云计算或者云存储,面临的一个最大问题是安全。1.2 几个概念安全认证:确保某个用户是自己声称的那个用户。安全授权:确保某个用户只能做他允许的那些操作User:Hadoop用户,可以提交作业,查看自己作业状态,查看HDFS上的文件 阅读全文

posted @ 2014-01-08 13:22 sambazhu 阅读(474) 评论(0) 推荐(0)

淘宝数据魔方技术架构解析
摘要:转自:http://www.alidata.org/archives/1789淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的研发难度并不高;但在“海量”的限定下,数据产品的计算、存储和检索难度陡然上升。本文将以数据魔方为例,向大家介绍淘宝在海量数据产品技术 阅读全文

posted @ 2014-01-08 11:19 sambazhu 阅读(199) 评论(0) 推荐(0)

淘宝开源的SQL
摘要:nQuery 引擎是数据中间层为应对大数据场景的在线查询的三大难题:长数据、宽数据、杂数据,广泛参考 Big Query、Impala、 PL/SQL、MySQL 、PgSQL、ql.io 等,结合自身业务特点,自行精心设计、实现的一套类SQL 语言(nSQL)及解析、执行引擎,它有着广泛的应用场景与很强的实用价值,能对 *SQL 型数据库提供翻译与兼容,对K/V 数据如HBase、OTS 或其他通用的数据源,它可以作为一个简洁强大的SQL 查询引擎,并以扩展SQL 的创新方式来支持数据JOIN, 结合NodeJS 框架,完全可以提供统一的SQL接口的高并发、高性能的的在线查询服务,解耦前后端 阅读全文

posted @ 2014-01-07 15:26 sambazhu 阅读(444) 评论(0) 推荐(0)

hadoop2.0之Impala初体验二
摘要:转自:http://labs.chinamobile.com/mblog/52251_204176但是也要注意哦,这个数据比起MPP数据库来说还是差,差得比Hive和Impala比较还要远,那是因为多表关联最考数据本地性(Locality)了,而MPP擅长这点(虽然这次测试中行列混合的两个查询分布键都不一样,而列数据库的SQL2分布键不一样,但仍然效果明显)。所以如果Impala不改变存储结构的话,还是很难和MPP比较性能。但是要注意哦,这是8个节点,如果100个节点以上,特别是有故障发生的情况下,Impala的灵活性和健壮性就可能好多了。接下来看看嵌套查询的时候Impala优化得如何,反正H 阅读全文

posted @ 2014-01-07 15:06 sambazhu 阅读(864) 评论(0) 推荐(0)

hadoop2.0之Impala初体验一
摘要:转自:http://labs.chinamobile.com/mblog/52251_204175Impala,这个非洲的高角羚,被伟大的Cloudera公司赋予了新的含义。随着2013年5月1日的1.0版本发布,一个构建在HDFS上的非MR机制的SQL解析引擎正在慢慢成熟。Impala相比原来的Hive来说,在解析上有很大的突破,至少我在初体验的时候感觉到有如下几点:1、对SQL92更好的支持,而不是一部分子集。2、不用MapReduce来进行执行,而使用自己的SQL解析和分布式执行引擎,效率有所提升3、充分使用内存来提升效率,所以两次重复查询效果迥异。但是对于Cloudera公司在发布会上 阅读全文

posted @ 2014-01-07 15:05 sambazhu 阅读(2030) 评论(0) 推荐(0)

PLSQL Developer 不能连接 oracle 12c 64位 的解决办法 for win 64
摘要:oracle_12c_winx64 安装后有个问题:tnsping orcl 正常sqlplususer/password 正常plsql developeruser/password 不能登录sqlplus user/password@orcl 报“ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务”错误此时,修改oracle\product\12.1.0\dbhome_1\NETWORK\ADMIN\listener.ora按照红色部分修改,增加监听的sid:SID_LIST_LISTENER =(SID_LIST = (SID_DESC = (SID_NAME = .. 阅读全文

posted @ 2014-01-07 13:30 sambazhu 阅读(854) 评论(0) 推荐(0)

Hadoop中国技术峰会引发Hadoop 2.0风暴
摘要:作为本年度大中华地区规模最大的Hadoop技术峰会,China Hadoop Summit是不会被这两大厂商忽视的。记者日前从大会组委会了解到,Hortonworks亚太区技术总监Jeff Markham将在大会第一天发表主题演讲,重点介绍Hadoop 2.0和YARN的最新消息,以及Hadoop未来的发展方向与亮点,将Hadoop 2.0旋风带至中国!大会第二天,Cloudera的明星工程师Todd Lipcon将进一步分享Hadoop和Hbase的最新特性,Todd Lipcon是Apache Hadoop、HBase和Thrift的Committer和PMC!所以,想要把握Hadoop最 阅读全文

posted @ 2014-01-07 13:23 sambazhu 阅读(281) 评论(0) 推荐(0)

导航