yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理

2014年12月23日 #

摘要: 1、Hadoop开发环境简介1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz1.2 Windows开发简介 Java版本:jdk-6u31-windows-... 阅读全文
posted @ 2014-12-23 23:18 xxxxxxxx1x2xxxxxxx 阅读(172) 评论(0) 推荐(0)

摘要: 1)Cygwin相关资料 (1)Cygwin上安装、启动ssh服务失败、ssh localhost失败的解决方案 地址:http://blog.163.com/pwcrab/blog/static/16990382220107267443810/ (2)windows2003+cygwin+s... 阅读全文
posted @ 2014-12-23 21:44 xxxxxxxx1x2xxxxxxx 阅读(388) 评论(0) 推荐(0)

摘要: 1)Hadoop学习总结 (1)HDFS简介 (2)HDFS读写过程解析 (3)Map-Reduce入门 (4)Map-Reduce的过程解析 (5)Hadoop的运行痕迹 (6)Apache Hadoop 版本2)Hadoop-0.20.0源代码分析 (1)Hadoop-0.20.0... 阅读全文
posted @ 2014-12-23 21:15 xxxxxxxx1x2xxxxxxx 阅读(156) 评论(0) 推荐(0)

摘要: macOS中Vim基本配置 Vim的初始化配置 .vimrc 存放位置 macOS 环境下 vim 的初始化配置文件为 .vimrc , 通常有两个(系统版本和用户版本),一个位于 /usr/share/vim/vimrc,是整个系统vim的默认配置;另一个位于 ~/.vimrc,是当前用户的 vi 阅读全文
posted @ 2014-12-23 21:08 xxxxxxxx1x2xxxxxxx 阅读(982) 评论(0) 推荐(0)

摘要: 2、MapReduce与MySQL交互 MapReduce技术推出后,曾遭到关系数据库研究者的挑剔和批评,认为MapReduce不具备有类似于关系数据库中的结构化数据存储和处理能力。为此,Google和MapReduce社区进行了很多努力。一方面,他们设计了类似于关系数据中结构化数据表的技术(Go... 阅读全文
posted @ 2014-12-23 21:07 xxxxxxxx1x2xxxxxxx 阅读(189) 评论(0) 推荐(0)

摘要: 1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。... 阅读全文
posted @ 2014-12-23 21:04 xxxxxxxx1x2xxxxxxx 阅读(134) 评论(0) 推荐(0)

摘要: 1、MapReduce理论简介1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoo... 阅读全文
posted @ 2014-12-23 21:03 xxxxxxxx1x2xxxxxxx 阅读(191) 评论(0) 推荐(0)

摘要: 1、SecureCRT简介 SecureCRT是一款支持SSH(SSH1和SSH2)的终端仿真程序,同时支持Telnet和rlogin协议。SecureCRT是一款用于连接运行包括Windows、UNIX和VMS的远程系统的理想工具。通过使用内含的VCP命令行程序可以进行加密文件的传输。有流行CR... 阅读全文
posted @ 2014-12-23 21:01 xxxxxxxx1x2xxxxxxx 阅读(164) 评论(0) 推荐(0)

摘要: 1、分布式环境搭建 采用4台安装Linux环境的机器来构建一个小规模的分布式集群。图1 集群的架构 其中有一台机器是Master节点,即名称节点,另外三台是Slaver节点,即数据节点。这四台机器彼此间通过路由器相连,从而实验相互通信以及数据传输。它们都可以通过路由器访问Internet,实验网... 阅读全文
posted @ 2014-12-23 20:58 xxxxxxxx1x2xxxxxxx 阅读(178) 评论(0) 推荐(0)

摘要: 1、VSFTP简介 VSFTP是一个基于GPL发布的类Unix系统上使用的FTP服务器软件,它的全称是Very Secure FTP 从此名称可以看出来,编制者的初衷是代码的安全。 安全性是编写VSFTP的初衷,除了这与生俱来的安全特性以外,高速与高稳定性也是VSFTP的两个重要特点。 在速度... 阅读全文
posted @ 2014-12-23 20:57 xxxxxxxx1x2xxxxxxx 阅读(125) 评论(0) 推荐(0)

摘要: 1、准备安装1.1 系统简介 CentOS 是什么? CentOS是一个基于Red Hat企业级 Linux提供的可自由使用的源代码企业级的 Linux 发行版本。每个版本的CentOS都会获得七年的支持(通过安全更新方式)。新版本的CentOS每两年发行一次,而每个版本的 CentOS 会定期... 阅读全文
posted @ 2014-12-23 20:56 xxxxxxxx1x2xxxxxxx 阅读(137) 评论(0) 推荐(0)

摘要: 1、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特... 阅读全文
posted @ 2014-12-23 20:52 xxxxxxxx1x2xxxxxxx 阅读(156) 评论(0) 推荐(0)

摘要: l扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。l成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。l高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(pa... 阅读全文
posted @ 2014-12-23 20:50 xxxxxxxx1x2xxxxxxx 阅读(2983) 评论(0) 推荐(0)

摘要: (1)分布式文件系统随着数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。它是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。... 阅读全文
posted @ 2014-12-23 20:07 xxxxxxxx1x2xxxxxxx 阅读(693) 评论(0) 推荐(0)

摘要: 1.RPC 1.1 RPC (remote procedure call)远程过程调用. 远程过程指的是不是同一个进程。 1.2 RPC至少有两个过程。调用方(client),被调用方(server)。 1.3 client主动发起请求,调用指定ip和port的server中的方法,把调用结果返回... 阅读全文
posted @ 2014-12-23 19:53 xxxxxxxx1x2xxxxxxx 阅读(146) 评论(0) 推荐(0)

摘要: 1.对hdfs操作的命令格式是hadoop fs 1.1 -ls 表示对hdfs下一级目录的查看 1.2 -lsr 表示对hdfs目录的递归查看 1.3 -mkdir 创建目录 1.4 -put 从linux上传文件到hdfs 1.5 -get 从hdfs下载文件到linux 1.... 阅读全文
posted @ 2014-12-23 19:52 xxxxxxxx1x2xxxxxxx 阅读(158) 评论(0) 推荐(0)

摘要: 在CentOS下安装配置hadoop的时候,总显示因为网络端口而导致主机无法访问服务器,遂打算先关闭一下防火墙。偶然看到防火墙的配置操作说明,感觉不错。执行”setup”命令启动文字模式配置实用程序,在”选择一种工具”中选择”防火墙配置”,然后选择”运行工具”按钮,出现防火墙配置界面,将”安全级别”... 阅读全文
posted @ 2014-12-23 19:50 xxxxxxxx1x2xxxxxxx 阅读(374) 评论(0) 推荐(0)

摘要: 1、在主服务器master下生成密钥 $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 2、将密钥放在 ~/.ssh/authorized_keys $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 3、对生成的文 阅读全文
posted @ 2014-12-23 18:35 xxxxxxxx1x2xxxxxxx 阅读(261) 评论(0) 推荐(0)

摘要: 通过我们前面的操作,已经可以编译并且打包产生适合本机的hadoop包,目录是/usr/local/hadoop-2.2.0-src/hadoop-dist/target/hadoop-2.2.0。使用root用户登录配置文件位于/usr/local/hadoop-2.2.0-src/hadoop-d... 阅读全文
posted @ 2014-12-23 15:26 xxxxxxxx1x2xxxxxxx 阅读(304) 评论(0) 推荐(0)