Hadoop develop

博学笃志,切问近思,此八字,是收放心的工夫。 神闲气静,智深勇沉,此八字,是干大事的本领。

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 19 下一页

2014年1月3日

摘要: Hadoop版本提供了对多种文件系统的支持,但是这些文件系统是以何种方式实现的,其实现原理是什么以前并没有深究过。今天正好有人咨询我这个问题:Hadoop对S3的支持原理是什么?特此总结一下。 阅读全文
posted @ 2014-01-03 17:21 张子良 阅读(1860) 评论(2) 推荐(1) 编辑

2014年1月2日

摘要: 最近的一次培训,用户特意提到Hadoop环境下HDFS中存储的文件如何才能导入到HBase,关于这部分基于HBase Java API的写入方式,之前曾经有过技术文章共享,本文就不再说明。本文基于Hive执行HDFS批量向HBase导入数据,讲解Hive与HBase的整合问题。这方面的文章已经很多,但是由于版本差异,可操作性不大,本文采用的版本均基于以下版本说明中的版本。 阅读全文
posted @ 2014-01-02 16:14 张子良 阅读(3365) 评论(1) 推荐(1) 编辑

2013年12月27日

摘要: Heritrix3.x的WebUI发生了变化,不在是原来那种WebUI选择模式,而是变成了在线配置文件直接编辑模式。在这里自定义的Extractor要想加入Heritrix运行,首先需要修改配置文件,降自定义扩展的Extractor加入到Heritrix的Processor队列 阅读全文
posted @ 2013-12-27 07:05 张子良 阅读(1600) 评论(0) 推荐(0) 编辑

2013年12月24日

摘要: 一、课程概述 本课程面向No-SQL开发人员、系统分析和系统架构师,目的在于帮助他们建立起完整的No-SQL数据库的概念,应用场景、相关开源技术框架和优缺点。二、课程大纲主题时间主题No-SQL概述(第1天)上午No-SQL的前世今生-业务才是王道;RDBMS与No-SQL数据库对比分析;主流No-SQL数据库分类和应用场景;下午典型No-SQL数据库开源产品介绍;No-SQL数据库关键指标分析;正本清源:我们真的需要No-SQL吗?键值数据库(第2天)上午开源键值数据库产品介绍;Memcached(先行者)基础:安装部署、管理命令、运行监控和开发接口;Redis(数据类型的扩展和延伸)基础. 阅读全文
posted @ 2013-12-24 11:34 张子良 阅读(818) 评论(0) 推荐(1) 编辑

摘要: 一、课程概述本次培训课程主要面向大数据系统管理人员和开发设计人员,基于开源社区大数据应用最活跃的Hadoop和HBase技术框架。围绕分布式文件存储(HDFS)、分布式并行计算(Map/Recue)和非关系型数据库(NoSql)三个大数据核心应用展开,旨在帮助培训对象建立起完整的大数据理论基础框架和实践操作能力。主要课程内容包括:1.大数据应用发展史;2.分布式文件系统HDFS原理与架构、HDFS系统管理、HDFS开发与设计;3.分布式并行计算框架Map/Reduce工作原理与架构、Map/Reduce任务运行监控、Map/Reduce任务调度、Map/Redcue开发与设计;4.非关系型数据 阅读全文
posted @ 2013-12-24 09:51 张子良 阅读(927) 评论(0) 推荐(0) 编辑

摘要: 一、课程概述本次培训课程主要面向大数据系统管理人员和开发设计人员,基于开源社区大数据应用最活跃的Hadoop和HBase技术框架,围绕分布式文件存储(HDFS)、分布式并行计算(Map/Recue)和非关系型数据库(NoSql)三个大数据核心应用展开,旨在帮助培训对象建立起完整的大数据理论基础框架和实践操作能力。主要课程内容包括:1.大数据应用发展史;2.分布式文件系统HDFS原理与架构、HDFS系统管理、HDFS开发与设计;3.分布式并行计算框架Map/Reduce工作原理与架构、Map/Reduce任务运行监控、Map/Reduce任务调度、Map/Redcue开发与设计;4.非关系型数据 阅读全文
posted @ 2013-12-24 09:38 张子良 阅读(787) 评论(0) 推荐(1) 编辑

2013年12月19日

摘要: K-Means算法是聚类算法中,应用最为广泛的一种。本文基于欧几里得距离公式:d = sqrt((x1-x2)^+(y1-y2)^)计算二维向量间的距离,作为聚类划分的依据,输入数据为二维数据两列数据,输出结果为聚类中心和元素划分结果 阅读全文
posted @ 2013-12-19 11:20 张子良 阅读(6328) 评论(0) 推荐(3) 编辑

2013年12月17日

摘要: 一、数据挖掘的价值体现 二、大数据之困-通道 三、大数据金融-行业化运作 四、大数据金融实施切入 五、大数据服务-来的真的有点快 六、大数据应用带来的行业革命 七、大数据之去IOE 阅读全文
posted @ 2013-12-17 07:29 张子良 阅读(2166) 评论(3) 推荐(2) 编辑

2013年12月11日

摘要: 最近在忙某个商业银行的项目,需要引入外部互联网数据作为参考,作为技术选型阶段的工作,之前已经确定了中文分词工具,下一个话题就是网络爬虫的选择,目标很明确,需要下载一些财经网站的新闻信息,然后进行文本计算。记得上一次碰爬虫还是5年前,时过境迁,不知道爬虫的世界里是否有了新的崛起。比较过一些之后,初步认定Heritrix基本能够满足需要,当然肯定是需要定制的了。 阅读全文
posted @ 2013-12-11 14:58 张子良 阅读(1971) 评论(4) 推荐(1) 编辑

2013年12月9日

摘要: 中文分词一直是自然语言处理的一个痛处,早在08年的时候,就曾经有项目涉及到相关的应用(Lunce构建全文搜索引擎),那时的痛,没想到5年后的今天依然存在,切分效果、扩展支持、业务应用等方面依然不甚理想。收费的版本不提了,原因自不必言表,开源版本中,发现之前曾经活跃的版本,大多已经没落(好几年没更新了),存活下来的寥寥无几。我是一个守旧的人,评估版本的选择有些保守,至少目前为止,只看1.0正式版本之后的版本,0.XX的不在考虑范围之内,用了一个周末的时间,对比了十多款的样子,个人感觉源于中科院ICTCLAS的smartcn和IKAnanlyzer效果还是不错的。 阅读全文
posted @ 2013-12-09 15:49 张子良 阅读(10147) 评论(14) 推荐(3) 编辑

上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 19 下一页