随笔分类 - 01.bigdata
大数据环境搭建、配置调优、围绕平台开发等.
摘要:solr集群中配置文件是经常更新的,频率最高的也就是schema.xml和solrconfig.xml这两个配置文件了,对于更新配置文件之前,我们先了解一下集群项目结构 由于在集群模式下,solrconfig.xml和schema.xml等配置文件都由Zookeeper集群管理,所以本地项目中只保留
阅读全文
摘要:之前搭建过SolrCloud和Solr单机版本,另外还有很多对Solr配置文件以及核心的操作,以下主要总结Solr集群中的常用操作,即在配置文件中正确设置ZK_HOST参数并且Zookeeper正确启动才是集群模式,一台计算机也可以开启集群模式,这里集群是不包含测试实例的集群,也就是没有默认的get
阅读全文
摘要:Redis是一个开源的,先进的key-value存储,并用于构建高性能、可扩展的Web应用程序的比较完美的解决方案,Redis的3个主要特点如下: 1、Redis数据库完全存在于内存中,使用磁盘仅用于持久化,所以读写速度极快,每秒约10万左右集合或者记录 2、Redis数据类型非常丰富 3、Redi
阅读全文
摘要:之前介绍过2篇SolrCloud的部署流程,第一个是使用安装脚本的方式进行抽取安装,启动比较方便,但是会创建多个目录,感觉比较乱;第二个是官方教程上提供的方法,使用比较简单,直接释放压缩包即可,并且启动cloud实例的时候默认会创建一个示例collection;实际上官方文档在solr启动脚本配置文
阅读全文
摘要:前面说过了Storm的测试项目,那么此时我们更想自己写一个小项目来练练手,首先我们自己的Windows系统上首先应该安装好maven,然后启动Eclipse for JavaEE版本,接下来开始建立项目并开发 注意,在开发过程中,无论是Windows还是Linux都要完全关闭防火墙,避免网络的问题
阅读全文
摘要:之前Storm安装之后,也知道了Storm的一些相关概念,那么怎么样才可以运行一个例子对Storm流式计算有一个感性的认识呢,那么下面来运行一个Storm安装目录自带的测试案例,我们的Storm安装在服务器的/usr/storm/apache-storm-0.9.6中,首先进入这个目录,执行ls可以
阅读全文
摘要:在大数据出现的早期,当时企业或者开发者所注重的都是批量计算,当时对于开发者来说,对于一定量数据的处理,利用普通的程序就可以解决,然而当数据量或者计算量到达一定数量之后,应用程序的计算需要的时间也和数据量一样飞速增长,这个时候仅仅依靠传统的应用程序就遇到的很大的瓶颈,这个时候,一方面通过优化程序内部算
阅读全文
摘要:前面说过Kafka集群环境的部署,现在主要说一下在本地测试中Kafka单机环境的部署,和前面一样首先保证zookeeper服务的正常运行,然后解压并释放kafka安装包,并放到指定位置: 现在开始编辑配置文件server.properties,执行命令: vim config/server.prop
阅读全文
摘要:前面说过storm集群的部署,这篇主要介绍storm单机环境部署,其实他们之间很类似,就是将之前配置文件中所有的集群条目改成本机的地址即可,部署之前应该按前面solr和zookeeper单机环境部署那篇文章中,正确设置好zookeeper并且启动zookeeper服务,设置方法和前面完全一致,接下来
阅读全文
摘要:首先和之前一样下载solr-5.3.1.tgz,然后执行下面命令释放文件并放置在/usr/目录下: 这个时候先不用启动solr,因为单机模式下为了和之前保持通用仍然使用外部zookeeper,只是zookeeper也是以单机模式运行,此时和之前一样下载zookeeper,然后释放到指定目录,操作如下
阅读全文
摘要:Zookeeper服务安装之后,一般会在这个服务的基础之上安装其他的大数据平台,其他的框架一般会提供很多接口对Zookeeper中的内容进行一定的操作,但是功能相对单一,所以有些时候,有必要我们自己登录Zookeeper服务器,对里面的文件结构有一定的了解,这样的话使用起来也比较方便,下面就简单总结
阅读全文
摘要:Kafka是一个分布式、可分区、可复制的消息系统。Kafka将消息以topic为单位进行归纳;Kafka发布消息的程序称为producer,也叫生产者;Kafka预订topics并消费消息的程序称为consumer,也叫消费者;当Kafka以集群的方式运行时,可以由一个服务或者多个服务组成,每个服务
阅读全文
摘要:前面写过生产过程中的SolrCloud集群配置,实际上官方给出的是免安装配置,启动时采用命令行参数的方式启动,这样相对简单,并且官方文档也给出了外部Zookeeper的配置,和前面说的基本一致,这个不影响,在配置好Zookeeper之后,开始简单说一下solrcloud的配置 这里还是设置了三台服务
阅读全文
摘要:Storm集群的安装分为以下几步: 1、首先保证Zookeeper集群服务的正常运行以及必要组件的正确安装 2、释放压缩包 3、修改storm.yaml添加集群配置信息 4、使用storm脚本启动相应服务并查看服务状态 5、通过web查看storm集群的状态 安装Storm之前首先保证之前安装的Zo
阅读全文
摘要:Solr是一个企业级搜索服务器,对外提供Web-Service接口,用户可以通过http请求,向搜索引擎提交xml或者json格式的数据,生成索引;然后可以通过http get请求查找,获取返回的xml或者json等多种格式的数据。 首先去官网下载solr安装包,网址是:https://lucene
阅读全文
摘要:Zookeeper是一个分布式、开源的分布式应用程序协调服务,是Google的Chubby的开源实现,也是和Hadoop、Hbase相互配合的重要组件,作用就是为分布式应用程序提供一致性服务,包括配置维护、名字服务、分布式同步等 接下来在之前配置好hadoop集群环境的3台虚拟机上配置zookeep
阅读全文
摘要:上个博客写了Hadoop2.6.0的环境部署,下面写一个简单的基于数字排序的小程序,真正实现分布式的计算,原理就是对多个文件中的数字进行排序,每个文件中每个数字占一行,排序原理是按行读取后分块进行排序,最后对块进行合并,通俗来说就是首先对小于100的数据范围进行排序,然后对100-1000之间的数据
阅读全文
摘要:Hadoop的集群部署和单节点部署类似,配置文件不同,另外需要修改网络方面的配置 首先,准备3台虚拟机,系统为CentOS 6.6,其中一台为namenode 剩余两台为 datanode; 修改主机名主节点为:hadoopha,数据节点主机名分别为hadoop1、hadoop2,具体修改方法点击这
阅读全文
摘要:首先编写WordCount.java源文件,分别通过map和reduce方法统计文本中每个单词出现的次数,然后按照字母的顺序排列输出, Map过程首先是多个map并行提取多个句子里面的单词然后分别列出来每个单词,出现次数为1,全部列举出来 Reduce过程首先将相同key的数据进行查找分组然后合并,
阅读全文
摘要:Hadoop环境搭建成功后,一般会运行一个小例子,这时候就涉及到了对HDFS文件系统的操作,对于刚开始学习Hadoop的初学者一般会多次的进行name节点的格式化操作,最后导致上传文件会抛出异常,通过jps命令查看会发现除了DataNode进程外其他进程都在正常运行,所以格式化只能进行一次,后续的集
阅读全文

浙公网安备 33010602011771号