yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理

随笔分类 -  hadoop,大数据

上一页 1 2 3 4 5 下一页

摘要:Hadoop集群配置(最全面总结) 通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\ 官方地址:(http://Hadoop.apache. 阅读全文
posted @ 2016-04-30 12:16 xxxxxxxx1x2xxxxxxx 阅读(410) 评论(0) 推荐(0)

摘要:Hadoop简介 Hadoop的概要介绍 Hadoop,是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。 简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。该平台使用的是面向对象编 阅读全文
posted @ 2016-04-30 12:16 xxxxxxxx1x2xxxxxxx 阅读(287) 评论(0) 推荐(0)

摘要:Hadoop实战实例 Hadoop实战实例 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统 阅读全文
posted @ 2016-04-30 12:16 xxxxxxxx1x2xxxxxxx 阅读(206) 评论(0) 推荐(0)

摘要:跟上节奏 大数据时代十大必备IT技能 新的想法诞生新的技术,从而造出许多新词,云计算、大数据、BYOD、社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇。这些新的技术,这些新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最新的IT技能。 新的想法诞生新的技术,从而造出许多新词,云计算 阅读全文
posted @ 2016-04-30 12:14 xxxxxxxx1x2xxxxxxx 阅读(194) 评论(0) 推荐(0)

摘要:深入解析:分布式系统的事务处理经典问题及模型(转载分享) 摘要:分布式系统需要在数据完整、一致性和性能间做平衡。本文系统介绍了处理分布式数据一致性的技术模型,如:Master-Slave,Master-Master,2PC/3PC,经典的将军问题,Paxos,以及Dynamo的NRW和VectorC 阅读全文
posted @ 2016-04-30 12:13 xxxxxxxx1x2xxxxxxx 阅读(135) 评论(0) 推荐(0)

摘要:你的数据根本不够大,别老扯什么Hadoop了 本文原名“Don’t use Hadoop when your data isn’t that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计 阅读全文
posted @ 2016-04-30 12:11 xxxxxxxx1x2xxxxxxx 阅读(275) 评论(0) 推荐(0)

摘要:Storm集群安装详解 Storm集群安装详解 storm有两种操作模式: 本地模式和远程模式。 本地模式:你可以在你的本地机器上开发测试你的topology, 一切都在你的本地机器上模拟出来; 远端模式:你提交的topology会在一个集群的机器上执行。 本文以Twitter Storm官方Wik 阅读全文
posted @ 2016-04-30 12:10 xxxxxxxx1x2xxxxxxx 阅读(128) 评论(1) 推荐(0)

摘要:海量数据处理 海量数据处理 海量数据处理是基于海量数据上的存储、处理、操作。 所谓海量,就是数据量很大,可能是TB级别甚至是PB级别,导致无法一次性载入内存或者无法在较短时间内处理完成。面对海量数据,我们想到的最简单方法即是分治法,即分开处理,大而化小,小而治之。我们也可以想到集群分布式处理。 1 阅读全文
posted @ 2016-04-30 12:09 xxxxxxxx1x2xxxxxxx 阅读(143) 评论(0) 推荐(0)

摘要:我安装后memcached后,并使用 ? 1 sudo service memcached start ? 1 sudo service memcached start ? 1 sudo service memcached start sudo service memcached start 阅读全文
posted @ 2016-04-25 02:39 xxxxxxxx1x2xxxxxxx 阅读(137) 评论(0) 推荐(0)

摘要:Apache Hadoop 项目有两个核心组件,被称为 Hadoop 分布式文件系统 (Hadoop Distributed File System, HDFS) 的文件存储,以及被称为 MapReduce 的编程框架。有一些支持项目充分利用了 HDFS 和 MapReduce。 HDFS: 如果您 阅读全文
posted @ 2016-02-17 22:20 xxxxxxxx1x2xxxxxxx 阅读(335) 评论(0) 推荐(0)

摘要:作者:大数据女神-诺蓝(微信公号:dashujunvshen)。本文是36大数据专稿,转载必须标明来源36大数据。 本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考。下面是第一部分。 查询引擎 一、Phoenix 贡献 阅读全文
posted @ 2016-02-02 11:04 xxxxxxxx1x2xxxxxxx 阅读(419) 评论(0) 推荐(0)

摘要:数据时代数据可视化成为理解和表达数据的有效甚至是唯一的手段。 一共56个,盘点最实用的大数据可视化分析工具 工欲善其事必先利其器,本文对55个流行的数据可视化工具开源协议,主页,文档,案例等资源的进行简单介绍,其中包括著名的 D3.js,R,Gephi,Raphaël,Processing.js,T 阅读全文
posted @ 2016-02-01 17:12 xxxxxxxx1x2xxxxxxx 阅读(2365) 评论(0) 推荐(0)

摘要:H2O是开源基于大数据的机器学习库包H2O能够让Hadoop做数学,H2O是基于大数据的 统计分析 机器学习和数学库包,让用户基于核心的数学积木搭建应用块代码,采取类似R语言 Excel或JSON等熟悉接口,使的BigData爱好者和专家可以利用一系列简单的先进算法对数据集进行探索,建模和评估。数据... 阅读全文
posted @ 2016-01-13 21:56 xxxxxxxx1x2xxxxxxx 阅读(417) 评论(0) 推荐(0)

摘要:使用Ambari快速部署Hadoop大数据环境 发布于2013-5-24 前言做大数据相关的后端开发工作一年多来,随着... 阅读全文
posted @ 2015-12-31 16:47 xxxxxxxx1x2xxxxxxx 阅读(186) 评论(0) 推荐(0)

摘要:一、Hadoop入门,了解什么是Hadoop1、Hadoop产生背景2、Hadoop在大数据、云计算中的位置和关系3、国内外Hadoop应用案例介绍4、国内Hadoop的就业情况分析及课程大纲介绍5、分布式系统概述6、Hadoop生态圈以及各组成部分的简介7、Hadoop核心MapReduce例子说... 阅读全文
posted @ 2015-10-08 12:06 xxxxxxxx1x2xxxxxxx 阅读(304) 评论(0) 推荐(0)

摘要:delete 阅读全文
posted @ 2015-09-16 02:39 xxxxxxxx1x2xxxxxxx 阅读(161) 评论(0) 推荐(0)

摘要:大数据处理方面的 7 个开源搜索引擎大数据是一个包括一切的术语,指的是数据集很大很复杂,他们需要特别设计的硬件和软件工具。数据集通常是 T 或者更大级别。这些数据集从各种各样的来源创建,包括传感器,收集气象信息,公开可用的信息,如杂志、报纸、文章。还包括购买交易记录、网络日志、医疗记 录、军事侦察、... 阅读全文
posted @ 2015-09-06 00:32 xxxxxxxx1x2xxxxxxx 阅读(967) 评论(0) 推荐(0)

摘要:二、Remote procedure call (RPC)(using the Java client)三、Client interface(客户端接口)为了展示一个RPC服务是如何使用的,我们将创建一段很简单的客户端class。 它将会向外提供名字为call的函数,这个call会发送RPC请求并且... 阅读全文
posted @ 2015-07-19 17:21 xxxxxxxx1x2xxxxxxx 阅读(206) 评论(0) 推荐(0)

摘要:二、Topic(主题) (using the Java client)上一篇文章中,我们进步改良了我们的日志系统。我们使用direct类型转发器,使得接收者有能力进行选择性的接收日志,,而非fanout那样,只能够无脑的转发。为了在我们的系统中实现上述的需求,我们需要学习稍微复杂的主题类型的转发器(... 阅读全文
posted @ 2015-07-19 17:18 xxxxxxxx1x2xxxxxxx 阅读(277) 评论(0) 推荐(0)

摘要:二、Routing(路由) (using the Java client) 在前面的学习中,构建了一个简单的日志记录系统,能够广播所有的日志给多个接收者,在该部分学习中,将添加一个新的特点,就是可以只订阅一个特定的消息源,也就是说能够直接把关键的错误日志消息发送到日志文件保存起来,不重要的日志信息文... 阅读全文
posted @ 2015-07-19 17:16 xxxxxxxx1x2xxxxxxx 阅读(184) 评论(0) 推荐(0)

上一页 1 2 3 4 5 下一页