大数据与nosql - 随笔分类 - nosqlcn

pig学习日志

摘要：pig中支持的数据类型int 32位整数long 64位整数float 32为浮点double 64位浮点chararray 字符串 UTF-8 格式bytearray blod二进制boolean 布尔datetime 时间tuple 数组，如：(19,2)bag 数组的数组，如：{(19,2), (18,1)} map key,value组合的结构列表，如[open#apache]SchemasSchemas是指pig script的数据结构，按照原数据列的数据类型来定义，你必须定义准确才能开始你后面的处理工作， Schemas在as语句里边定义，其中LOAD, STREAM, and . 阅读全文

posted @ 2013-09-30 11:24 nosqlcn 阅读(500) 评论(0) 推荐(0)

完整hadoop生态系统的组件及其作用介绍

摘要：hadoop生态系统的组件hdfs,mapreduce,hive,pig,zookeeper,hbase大家应该都比较熟了，这里简单总结一下其他不太常用的组件的作用。OozieOozie是可扩展可伸缩的工作流协调管理器。Oozie协调的作业属于一次性的非循环作业，例如MapReduce, Streaming, Pipes, Pig, Hive, Sqoop等等都是。Oozie将要调度的作业作为一个单一的作业来管理。Oozie的调度基于时间跟数据可用性。具有数据感知功能，可以协调作业之间的依赖关系.FlumeFlume是一个类似facebook的scribe的分布式，高可靠，高可用，高效的数据收阅读全文

posted @ 2013-09-29 15:44 nosqlcn 阅读(5382) 评论(0) 推荐(0)

hadoop高可用性部署

摘要：高可用hdfs部署当你使用hadop进入一段时间后，你可能会碰到更高的要求。系统稳定吗?uptime时间能达到100%?为了能够安抚这类担忧情绪你需要做更多的工作.在集群里hadoop的NameNode是SPOF模式，加上backup namenode保证namenode数据在硬盘正确完整的存储，但一旦进程或者服务器挂掉，以及不得不进行的硬件更换升级导致停机，集群一样会处于不可用状态，这也是运行中的hadoop生态系统最麻烦的事情。这时候你就只能重启，或者在另外一个服务器上启动一个namenode.为保证高可用性，我们必须有1台StandbyNamenode角色的服务器，它能够随时保持与nam 阅读全文

posted @ 2013-09-29 15:38 nosqlcn 阅读(910) 评论(0) 推荐(0)

hadoop生态系统之zookeeper的部署

摘要：部署zookeeperzookeeper可以存储类似于文件系统的目录节点树方式的数据，主要通过维护和监控你存储的数据的状态变化，触发事件，从而进行基于数据的集群管理，zookeeper的用法，就类似如目录节点树的操作，首先创建一个目录节点，给某个目录节点设置数据，获取某个目录节点的所有子目录节点，给某个目录节点设置权限和监控这个目录节点的状态变化，通知目录节点的拥有者。zookeeper作为一个集群系统以外的管理系统，它对所管理的集群是无耦和的，它提供一个存储和管理数据场所，集群系统将它的管理模块入驻其中，一旦数据的状态发生变化，Zookeeper就将负责通知相应的住户作出反应，从而实现管理M 阅读全文

posted @ 2013-09-29 15:29 nosqlcn 阅读(444) 评论(0) 推荐(0)

hadoop的环境变量

摘要：我们会添加export HADOOP_HOME=hadoop的目录需要运行yarn的程序，如 Pig, Hive, Sqoop都必须添加环境变量export HADOOP_MAPRED_HOME=yarn的目录阅读全文

posted @ 2013-09-29 15:25 nosqlcn 阅读(568) 评论(0) 推荐(0)

hadoop生态系统之hive的部署

摘要：hive的一些设计机制hive的管理接口hive的管理接口有三个：CLI，Client和 WUI。其中最常用的是 CLI，Cli是本地的命令行接口。Client是Hive的客户端，连接Hive Server。WUI是通过web方式访问 Hive。hive元数据存储Hive的元数据可以存储在多种数据库里如mysql、derby、oracle、pgsql。一般选择是免费开源历史长的mysql。当然现在有通过hdfs本身来存储这些元数据的方案。有机会可以去试试，也希望有人能提供经验。HiveServer2与 HiveServer简单说， HiveServer2是 HiveServer的升级版本，主要阅读全文

posted @ 2013-09-29 15:22 nosqlcn 阅读(858) 评论(0) 推荐(0)

hadoop生态系统之Pig的部署

摘要：pig的一些设计机制Pig LatinPig Latin是pig的脚本语言，由operation 和 transformation 组成。每个操作或变换都是对输入进行数据处理，然后产生输出结果。这些操作整体上描述了一个数据流的输入输出。Pig内部，这些变换操作被转换成一系列的MapReduce 作业。与MapReduce一样，Pig是为数据批处理而设计的,操作对象至少是一个整个的文件。同时pig的每次输出位置必须是一个全新的文件夹Pig scripts类似sql的存储过程，pig支持把一系列命令放到一个文件中，使用命令 “pig ”运行。Pig scripts可以指定local或者mapred 阅读全文

posted @ 2013-09-29 15:16 nosqlcn 阅读(495) 评论(0) 推荐(0)

hadoop生态系统之hbase的部署

摘要：hbase的一些设计机制zookeeper与hbasehbase依赖zookeeper来管理它的HRegionServers，zookeeper存储的数据结构类似于文件系统的目录节点树模型，主要通过维护和监控你存储的数据的状态变化，触发事件，从而进行基于数据的集群管理，zookeeper的用法，就类似如目录节点树的操作，首先创建一个目录节点，给某个目录节点设置数据，获取某个目录节点的所有子目录节点，给某个目录节点设置权限和监控这个目录节点的状态变化，通知目录节点的拥有者。zookeeper作为一个集群系统的管理系统，它对所管理的集群是无耦和的，它提供一个存储和管理数据场所，集群系统将它的管理模阅读全文

posted @ 2013-09-29 15:12 nosqlcn 阅读(446) 评论(0) 推荐(0)

hadoop生态系统之编写自己的mapreduce

摘要：mapreduce的过程介绍注意：下面的内容中RM=ResourceManager ,NM=NodeManagerstep 1: client -> RM这是提交job的流程，client端先向RM申请一个ApplicationId，RM进行内部处理包括资源分配，优先级设定之类的准备工作.等到ApplicationId后，client端提交程序到RM执行。这个提交过程会指明localfile，jars ，输入，输出，环境变量等参数，实际上跟命令行bin/hadoop jar执行的东西一样.RM接收到提交后，根据资源(CPU，内存，硬盘，网络 ) 来进行调度.RM的调度流程是：RM不断接阅读全文

posted @ 2013-09-29 15:02 nosqlcn 阅读(432) 评论(0) 推荐(0)

hadoop生态系统之hadoop核心的部署

摘要：在hadoop生态系统中，hadoop核心包括了hdfs以及mapreduce.hadoop的一些设计机制机架感知rack-aware使得master能够获取整个集群的基于网络ip地址或者主机名的分布图。通过一个脚本实现，脚本耦合少，参数只有网络ip地址或者主机名。相关配置项 topology.script.file.namehealth-checker健康检查的模块类似hadoop这种组件繁多的生态系统，精简耦合是必须的，这个检查模块做得真是很小巧，它只通过脚本的返回的结果中有没有ERROR这个字符串来判断健康状态。相关配置项 yarn.NM.health-checker 开头的都是slav 阅读全文

posted @ 2013-09-29 14:47 nosqlcn 阅读(864) 评论(0) 推荐(0)

nosql Cassandra的内存优化方法0..74版本

摘要：Cassandra是facebook自己使用的搜索平台.也是nosql领域里的带头大哥.优点是速度快,简单易用,可靠性高.我自己测试的几乎没有停摆过,不管数据查询有多密集,数据有多大,而且几乎可以当作memcached来使用.一个明显缺点是占用内存非常大,默认的配置是250m左右.其实这真不是人家的缺点.是我们买不起大内存的vps.我下一步打算放弃memcached转用Cassandra.这样就合算多了.其实也说不上是优化,nosql数据库的性能与内存是息息相关.适合一般的内存没有那么大的vps等.按照Cassandra0.74的默认配置一共要250mb的内存,很恐怖的.现在修改一下配置文件阅读全文

posted @ 2011-03-22 10:33 nosqlcn 阅读(663) 评论(0) 推荐(0)

使用nosql Cassandra0.74来优化phpbb的搜索功能

摘要：phpbb的搜索功能是基于自己的分词表来搜索的.因为原本的系统中每一个汉字就是一个分割词造成体积非常的大.我自己用dphpbb论坛中的数据显示,负责分词的那个2个表里有上百万条数据.体积加起来是帖子表的十倍.搜索性能越来越差.下面是我自己用户nosql Cassandra0.74来取代搜索功能的方法:1 安装 Cassandra0.74 详细方法:2 下载SimpleCassie.0.7.1.6用于连接apache php与Cassandra0.74下载地址:你也可以到google code下载不过那个似乎被~~墙~~~了3 写一个脚本用于将phpbb分词表的数据转移到Cassandra0. 阅读全文

posted @ 2011-03-20 15:53 nosqlcn 阅读(245) 评论(0) 推荐(0)

各种nosql数据库的比较Cassandra,MongoDB,CouchDB,Redis,Riak,HBase

摘要：CouchDB开发语言：: Erlang主要优点: 数据一致性,易用许可: ApacheProtocol: HTTP/REST适用: 积累性的、较少改变的数据。或者是需要版本比较多的举例: CRM, CMS systems. 允许多站部署.Redis开发语言：: C/C++主要优点: 一个字快许可: BSDProtocol: Telnet-like适用: 总数据集快速变化且总量可预测.内存需求较高举例: 股票价格、实时分析、实时数据收集、实时通信.MongoDB开发语言：: C++主要优点: 类似SQL. (查询, 索引)许可: AGPL (Drivers: Apache)Protocol: 阅读全文

posted @ 2011-03-18 14:10 nosqlcn 阅读(1380) 评论(0) 推荐(0)

nosqlcn

随笔分类 - 大数据与nosql

公告