Hadoop develop

博学笃志,切问近思,此八字,是收放心的工夫。 神闲气静,智深勇沉,此八字,是干大事的本领。

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

随笔分类 -  大数据

1 2 下一页

摘要:存储、打通、融合、应用和推广即是可以按照时间顺序来进行组织的活动,同时也是可以从任何一个点开始的活动,需要根据企业的不同情况来进行定制和裁剪。存储是指应用系统数据的采集,建设内容包括数据标准构建、交易数据存储、行为数据存储和操作型数据系统建设,输出结果是操作型数据系统,解决系统级数据采集问题;打通是指同一业务上下游应用系统之间的数据打通,建设内容包括业务全景模型设计、数据主题域模型设计、数据存储模型设计和企业级数据仓库建设,输出结果是企业级数据仓库,解决业务级数据孤岛的问题;融合是指跨业务域的数据融合,引入第一方客户CRM数据、第二方平台数据、第三方其他组织数据和构建客户全景视图,输出结果是客户全景视图;应用是指基于数据的产品化,建设内容包括构建业务运营监控系统、营销决策支持系统、标准化的数据产品和数据洞察报告;推广是指数据服务能力的输出,建设内容包括面向销售体系的数据变现和面向市场体系的品牌推广。 阅读全文
posted @ 2017-02-23 20:50 张子良 阅读(1522) 评论(0) 推荐(0) 编辑

摘要:一千个人眼里有一千个哈姆雷特(There are a thousand Hamlets in a thousand people's eyes)一样,一千个人眼中就有一千种互联网思维。互联网思维:没有脱离商业最基本的本质。 阅读全文
posted @ 2016-04-11 14:38 张子良 阅读(684) 评论(0) 推荐(0) 编辑

摘要:要想实现业务目标,我们到底需要什么采集(此处不区分自有,还是外部采买)什么样的用户数据,才能支撑我们的业务目标,即数据采集标准的问题。 阅读全文
posted @ 2016-04-07 17:32 张子良 阅读(1113) 评论(0) 推荐(1) 编辑

摘要:一、模型示意图 二、模型解读 Knowledge is also defined using taxonomy, with levels describing data, information, knowledge and wisdom. Briefly, data is defined as a 阅读全文
posted @ 2016-03-03 17:42 张子良 阅读(974) 评论(0) 推荐(0) 编辑

摘要:底层数据打通:通则不痛,run起来的叫数据,run不来的是垃圾; 数据整合+数据分析+精准推送=精准服务:有用的是信息,无用的就是垃圾;如果你推送给用户的,恰是它想要的内容,百度还能变成全民公敌吗? 破题,从数据整合开始:直戮我心的一句,不解读,宁做学舌之鹦鹉“破题,从数据整合开始”; 数据+:其实在我的认知里,数据应该是3.0时代,应该是数据++; 阅读全文
posted @ 2016-01-23 19:15 张子良 阅读(979) 评论(0) 推荐(0) 编辑

摘要:每每提到数据挖掘,总有些人上来就是ETL、是算法、是数学模型,作为搞工程实施的我而言,很是头疼。其实作为数据挖掘的而言,算法只是其实现手段、是工具和实现手段而已,我们不是在创造算法(国外职业搞研究的除外),我们是在使用算法而已,换句话说我们是算法的工程化实践者。数据挖掘非今日之物,大数据挖掘也不是一个孤立的概念,其实质还是采用传统的数据挖掘的方法,只是其实现工具发生了变化而已,本质的东西还在。引入发布近20年前的CRISP-DM数据挖掘标准规范模型,供大家共享,希望能有人喜欢。 阅读全文
posted @ 2014-09-28 11:08 张子良 阅读(1932) 评论(0) 推荐(1) 编辑

摘要:phoenix psqlline使用过程中,使用CRT客户端,命令输入后无法删除,想起曾经处理HBaseShell输入后无法删除的解决办法,尝试了一下,居然有效,还是分享给大家把。 阅读全文
posted @ 2014-07-20 11:06 张子良 阅读(869) 评论(0) 推荐(1) 编辑

摘要:一、引言: 最近一直很忙,在做一个全国性项目的IT架构,所以一直没有更新,好在算是告一段落,继续努力吧。项目沟通中过程客户反复在强调,大数据的安全性,言下之意,用了大数据,就不安全了,就有漏洞了。所以花了些时间,针对大数据的安全设计做了一个总结,算是阶段性的成果吧,分享给大家。二、安全架构 大数... 阅读全文
posted @ 2014-06-25 09:44 张子良 阅读(3443) 评论(6) 推荐(7) 编辑

摘要:垄断的背景,带来的结果自然是数据的壁垒,曾经基于大数据做金融行业做微贷风险评估的行业应用被我否决,就是因为我们无法打通跨行情况下,客户营收明细数据的汇聚。大数据环境下,数据壁垒的制约,必将成为大数据行业应用的关键性屏障。当然这一切对于拥有垄断资源的企业都不成问题,数据就在他们手里,无须仰人之鼻息。 阅读全文
posted @ 2014-02-23 08:59 张子良 阅读(1297) 评论(1) 推荐(0) 编辑

摘要:大数据在结构化数据存储方面的应用需求越来越明确,但是大数据环境下辅助开发工具的不完善,给数据库管理人员和开发人员带来的不变难以言表,基于此创建了开源项目VisualHBase,同时创建了VisualHBase的开发群:263505724,希望能够借助社区的力量,解决大数据企业实施的瓶颈。 阅读全文
posted @ 2014-02-20 11:47 张子良 阅读(818) 评论(0) 推荐(0) 编辑

摘要:大数据在结构化数据存储方面的第一种模式:实时查询数据库; 大数据在结构化数据数据存储方面的第二种模式:大数据仓库; 思考题: 1.实时查询数据库能否替换实时操作数据库吗? 2.大数据仓库可以替代数据仓库吗? 阅读全文
posted @ 2014-02-14 12:13 张子良 阅读(2632) 评论(5) 推荐(2) 编辑

摘要:最近在处理一个商业银行的大数据项目,旨在构建大数据资源池,项目边界确认过程中,针对项目的定位出现了两种不同的观点,对大数据的在传统行业的应用有了新的启发。观点一、大数据作为操作数据历史库,存储操作数据库数据,提供历史数据长周期,快速检索的历史数据存储和快速查询服务。观点二、大数据作为数据仓库的的历史库,解决数据仓库历史数据存储的问题,构建一个大容量,高可用的数据存储平台,为全量数据分析和知识挖掘提供服务。作为操作数据库的历史库,已经完成了项目的实施,但是作为数据仓库的历史库之前的定位一直是取代,基于大数据做数据分析和知识挖掘,现在却找到了一个新的切入点,才发现,原来二者并不矛盾。 阅读全文
posted @ 2014-02-12 07:45 张子良 阅读(3694) 评论(7) 推荐(2) 编辑

摘要:社区的力量是巨大的,开源的诱惑也 是魅力无穷,靠忽悠无法长久的云计算已是昨日黄花,IT新贵的发力点聚焦大数据,言必称大数据,语必谈数据黄金,更有甚者,高唱2013是大数据元 年,2014必将是大数据爆发的一年。而企业也已躁动不安,纷纷举旗遥相呐喊:“大数据我来了”。在此给这些企业泼盆冷水,降降温度。让大数据回归理性。 阅读全文
posted @ 2014-01-24 08:24 张子良 阅读(2568) 评论(0) 推荐(6) 编辑

摘要:本课程是大数据高级培训课程,主要面向企业中层及以上管理人员,IT战略规划部门。理论联系实际,就大数据的应用方向,演进路线和企业大数据战略规划进行探讨,结合完整的大数据项目实施案例,进行讲解。旨在帮助企业IT战略决策部门解决大数据时代,企业大数据战略面临的各种问题:是否需要大数据?为何要上大数据?大数据能够给企业带来什么样的价值和意义?大数据平台如何和企业现有业务系统进行整合? 阅读全文
posted @ 2014-01-18 10:14 张子良 阅读(1606) 评论(9) 推荐(3) 编辑

摘要:flume-ng是一个分布式、高可靠和高效的日志收集系统,flume-ng是flume的新版本的意思,其中“ng”意为new generate(新一代),目前来说,flume-ng 1.4是最新的版本。flume-ng与flume相比,发生了很大的变化,因为之前一直在flume0.9的版本,一直没有升级到flume-ng,最近因为项目需要,做了一次升级,发现了一些问题,特记录下来,分享给大家。 阅读全文
posted @ 2014-01-17 14:49 张子良 阅读(2053) 评论(2) 推荐(1) 编辑

摘要:Hive元数据存储可以放到RDBMS数据库中,本文以Hive与MySQL数据库的整合为目标,详细说明Hive与MySQL的整合方法。 阅读全文
posted @ 2014-01-10 13:05 张子良 阅读(2629) 评论(1) 推荐(3) 编辑

摘要:Heritrix3.X与1.X版本变化比较大,基于此带来的Extractor定向扩展方法也受到影响,自定义扩展方面因为接口的变化受阻,从而萌生了通用网络信息采集器设计的想法。一直没有一个好的网络信息采集器,必须能够适应下载对象的多样性和下载内容的复杂性。比如需要同时下载100多家主流媒体的新闻信息,并解析入库等。本文围绕通用网络信息采集器的设计展开。 阅读全文
posted @ 2014-01-08 15:00 张子良 阅读(2318) 评论(5) 推荐(1) 编辑

摘要:最近各种客户咨询项目中,往往涉及大数据引入必要性和价值意义的深层次挖掘,用后有数据,有平台,但是不知到底要不要上大数据,为何要上大数据和大数据可以带来哪些价值和意义。本文关于大数据的必要性进行阐述,来源实际项目,算是分享吧。 阅读全文
posted @ 2014-01-07 11:06 张子良 阅读(1903) 评论(0) 推荐(0) 编辑

摘要:Hadoop版本提供了对多种文件系统的支持,但是这些文件系统是以何种方式实现的,其实现原理是什么以前并没有深究过。今天正好有人咨询我这个问题:Hadoop对S3的支持原理是什么?特此总结一下。 阅读全文
posted @ 2014-01-03 17:21 张子良 阅读(1860) 评论(2) 推荐(1) 编辑

摘要:最近的一次培训,用户特意提到Hadoop环境下HDFS中存储的文件如何才能导入到HBase,关于这部分基于HBase Java API的写入方式,之前曾经有过技术文章共享,本文就不再说明。本文基于Hive执行HDFS批量向HBase导入数据,讲解Hive与HBase的整合问题。这方面的文章已经很多,但是由于版本差异,可操作性不大,本文采用的版本均基于以下版本说明中的版本。 阅读全文
posted @ 2014-01-02 16:14 张子良 阅读(3365) 评论(1) 推荐(1) 编辑

1 2 下一页