摘要:
支持度(Support)的公式是:Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。置信度(Confidence)的公式式:Confidence(A->B)=P(A | B)。置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度度为100%,则A和B可以捆绑销售了。如果置信度太低,则说明A的出现与B是否出现关系不大。示例:某销售手机的商场中,70%的手机销售中包含充电器的销售,而在所有交易中56%的销售同时包含手机和充电器。则在此例中,支 阅读全文
posted @ 2012-10-07 22:42
bobsoft
阅读(6732)
评论(0)
推荐(0)
摘要:
1.注册消费方取得 Consumer Key 与 Consumer Secret2.请求令牌(OpenAPI.OAuth.RequestToken)通过使用Consumer Secret(密钥)返回的数据 cb9f7e6088d68237efa97d29193c368e ffc4eadfc3ce38a0f35c7a95d5b3dba8 3.验证令牌(OpenAPI.OAuth.AuthorizeToken)通过使用Token_Secret(会话密钥)返回的数据 cb9f7e6088d68237efa97d29193c368e ffc4eadfc3ce38a0f35c7a95d5b... 阅读全文
posted @ 2012-10-07 22:42
bobsoft
阅读(609)
评论(0)
推荐(0)
摘要:
http://www.cnblogs.com/leoo2sk/archive/2011/10/02/nginx-memc-and-srcache.html 阅读全文
posted @ 2012-10-07 22:41
bobsoft
阅读(122)
评论(0)
推荐(0)
摘要:
反向代理服务器:代理服务器对WEB用户的访问!也就是说它是真真服务器的“脸”!当我们需要隐藏一台服务器真真放在哪个国家时,可以这样做:代理服务器放在中国,真真的服务器可以放在任何一个地方,而用户只知道你的代理服务器在中国,通过设置代理服务器去访问真真的服务器!具体实现如下1.基础工作 安装linux,nginx,php/.net/....2.模拟环境IP为192.168.1.219的机器设置三个站点,通过端口访问192.168.1.219 192.168.1.219:82 192.168.1.219 :833.实现在nginx.conf文件里 添加 include 网站配置文件的路径假设192 阅读全文
posted @ 2012-10-07 22:41
bobsoft
阅读(345)
评论(0)
推荐(0)
摘要:
负载均衡:也就是将许多的WEB请求用N台机器去响应!负载均衡算法:就是如何将N个WEB请求更合理的提交给N台机器去响应!如下记录我在模拟负载均衡的实现:1.基础工作 安装LINUX,NGINX,PHP/.NET2.模拟环境 设机器IP 192.168.1.219 模拟机器2 192.168.1.219:82 模拟机器3 192.168.1.219:833.实施在nginx.conf 或者 nginx.conf 设置的网站文件(如 include /etc/nginx/sites-enabled/*;)的default文件中,添加如下节点upstream 192.168.1.219 {serv. 阅读全文
posted @ 2012-10-07 22:40
bobsoft
阅读(222)
评论(0)
推荐(0)
摘要:
nginx构架多个站点:等于在IIS建立N个网站一样1.基础工作 安装linux nginx php/.NET2.模拟环境IP为192.168.1.219的机器设置三个站点,通过端口访问http://192.168.1.219/http://192.168.1.219/ :82http://192.168.1.219/ :833.实现192.168.1.219 配置文件在/etc/nginx/sites-enabled/defaultnginx.conf添加 include /etc/nginx/sites-enabled/*;192.168.1.219:82配置文件在/etc/nginx/s 阅读全文
posted @ 2012-10-07 22:40
bobsoft
阅读(609)
评论(0)
推荐(0)
摘要:
配置流程如下:1.安装linux(就不说了)2.安装Nginx:sudo apt-get install nginx (具体命令查)3.默认配置文件在/etc/nginx/nginx.conf 如果没有,可以搜索 find / -name nginx;4.nginx.conf文件结构一言难尽,可查资料5.关心nginx.conf主要结构:server { listen 80;--/*端口*/ server_name _;/*域名*/ access_log /var/log/nginx/access.log main; /*访问目录*/ location / { root /usr/share/ 阅读全文
posted @ 2012-10-07 22:39
bobsoft
阅读(221)
评论(0)
推荐(0)
摘要:
在数据库使用中,DBA都会告诉大家SQL的LIKE条件为%XXX%号时,由于不能使用索引,当数据量变大时(比如超过百万条),全表扫描会导致性能很差。 但是在实际业务中,很难避免MySQL全文检索并Like索引的这种需求。比如模糊搜索用户帐号,昵称之类。既然这个需求必须做,但又不可以直接用LIKE。这里我和大家分享一下我们关于这种需求的一种解决方案。当然别人也可能采用过类似的办法,我不是很清楚。所以也用一下“原创”吧。 MySQL数据库很早就支持全文索引,但是全文索引和LIKE语句是不同的。具体点说,全文索引的单位是词,耳LIKE匹配的是字符。当然实际的区别更大,比如“老鼠爱大米”这段文本用.. 阅读全文
posted @ 2012-10-07 22:38
bobsoft
阅读(4884)
评论(0)
推荐(0)
摘要:
Lucene.Net:通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时,通过读取索引文件查询,避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库,为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案! 阅读全文
posted @ 2012-10-07 22:38
bobsoft
阅读(136)
评论(0)
推荐(0)
摘要:
solr可以支持多个数据源索引,具体配置如下solr主目录(c:\solr-tomcat\)1.solr.xml内容 2.每一个数据源(coreX)都包括 conf,data目录conf目录包括:schema.xml solrconfig.xmldata目录包括:索引数据 阅读全文
posted @ 2012-10-07 22:37
bobsoft
阅读(521)
评论(0)
推荐(0)
摘要:
两者都是为构建高性能搜索功能而创造的!小网站一般用like '%key%',这样搜索!lucene.net与hubble就是为实现这个功能,而付了N多的心血!下面将对这两个框架的实现,比较进行叙述!第一实现(待续)第二比较(待续) 阅读全文
posted @ 2012-10-07 22:37
bobsoft
阅读(185)
评论(0)
推荐(0)
摘要:
为提高站内搜索性能,目前正在建一台搜索服务器,以solr框架为基础,就配置记录如下:前期准备tomcat,jdk配置好1.下载apache-solr.zip2.解压apache-solr.zip至e:\apache-solr3.将e:\apache-solr\dist文件夹中的apache-solr.war 拷贝到 tomcat的webapps,并且改名为 solr.war4. 建立solr主目录 比如c:\solr-tomcat\5.将e:\apache-solr\example\solr文件夹 复制 至c:\solr-tomcat\6.配置环境变量 solr.home=c:\solr-to 阅读全文
posted @ 2012-10-07 22:37
bobsoft
阅读(158)
评论(0)
推荐(0)
摘要:
1.在需要导入的索引目录(core)下的conf/solrconfig.xml配置比如:C:\solr-tomcat\solr\core2\conf\solrconfig.xml data-config.xml 2.编写data-config.xml 3.在C:\solr-tomcat\solr\core2\目录创建lib目录,导入mysql-connector-java-5.1.21-bin.jar包即可4.启动tomcat,访问Solr服务器5.http://localhost:8080/solr/core2/dataimport?command=full-im... 阅读全文
posted @ 2012-10-07 22:36
bobsoft
阅读(270)
评论(0)
推荐(0)
摘要:
折腾了一上午终于完整的展示了一下Solr功能现在总结如下0.注意事项,field name="name" type="text_en" 设置它所属的fieldtype1.配置schema.xml文件 --> --> --> idname2.配置solrconfig.xml LUCENE_36 solr 3.导入数据测试 <1.将post.jar放入源数据文件夹 <2.加载测试数据4.测试查询:http://localhost:8080/solr/core3/admin/ 输入查询关键字 ipod 返回结果... 阅读全文
posted @ 2012-10-07 22:36
bobsoft
阅读(367)
评论(0)
推荐(0)
摘要:
在配置好与MYSQL的数据源基础上,做增量更新索引,总结如下1.data-config.xml内容修改为 '${dataimporter.last_index_time}'"> 2. 通过访问:http://localhost:8080/solr/dataimport?command=delta-import实现增量更新更新成功之后,conf/dataimport.properties时间会改变3.通过对http://localhost:8080/solr/dataimport?command=delta-import定时请求达到定时增量更新索引目的 阅读全文
posted @ 2012-10-07 22:36
bobsoft
阅读(780)
评论(0)
推荐(0)
摘要:
solr 分布式(复制)配置转载:http://hi.baidu.com/jasonsoso/item/a222249444a152b5cc80e57d 阅读全文
posted @ 2012-10-07 22:35
bobsoft
阅读(106)
评论(0)
推荐(0)
摘要:
1.索引字段对大小写敏感 阅读全文
posted @ 2012-10-07 22:34
bobsoft
阅读(126)
评论(0)
推荐(0)
摘要:
任何事务无论其隔离级别如何,都具有原子性。原子性和隔离级别是两码事。假定只有一种资源数据表上的“行“可以被锁定。锁只有共享锁和排他锁两种。锁的兼容性: SXS 10X 00事务的隔离级别:Read Uncommitted数据读取时不需要锁定Read Committed数据读取时需要共享锁定Repeatable Read数据读取时需要排他锁Serializable事务必须等同于串行执行注意无论任何时候更新行都必须要有排他锁。插入行不需要锁。在Read Committed隔离级别下,数据读取完毕后立即释放共享锁,而在Repeatable Read隔离级别下,事务保持共享锁直到整个事务结束。在SQL 阅读全文
posted @ 2012-10-07 22:34
bobsoft
阅读(222)
评论(0)
推荐(0)
摘要:
SQL Server中的所有权链及其问题 没有多少朋友对所有权链真的理解的。我自己有时候经常回过来看看这些资料,觉得还是很有意思的。下面的内容摘自微软文档,介绍得比较好简而言之1. 如果在同一个数据库中,只要两个对象的所有者是一样的,那么他们之间的访问是不检查访问者身份的。例如一个视图和一个表是属于同一个所有者,那么只要用户有访问视图的权限,就等于拥有了访问表的权限,即便在表上面明确拒绝了用户的权限。你可能会奇怪了,我们不是经常讲“拒绝优先”吗?没错,拒绝优先是对的,但事情的关键主要在于这个时候,SQL Server根本就不检查权限了,当然就不存在任何问题。这个特性可能在规划安全时很有用2. 阅读全文
posted @ 2012-10-07 22:34
bobsoft
阅读(602)
评论(0)
推荐(0)
摘要:
为提升数据库的并发访问数,可作“读写分离”,具体方法如下第一,准备阶段 检查SQL Server Agent服务是否启动 检查数据库服务器名是否与机器名一致,若不一致可执行如下代码if serverproperty('servername') @@servername begin declare @server sysname set @server = @@servername exec sp_dropserver @server = @server set @server = cast(serverproperty('servername') as sysn 阅读全文
posted @ 2012-10-07 22:33
bobsoft
阅读(646)
评论(0)
推荐(0)
摘要:
对于大容量数据库表,且有一定业务规则的(比如有时间规则)可作如下分区,以提升综合性能第一,创建分区函数:根据业务规则创建(比如一个月分一个或几个月分一个)第二,创建文件组:根据规则,将每一条规则对应一个文件(物理文件,NDF)第三,创建建立分区架构,用来将概念上的分区和文件组(物理文件)关联起来第四,建立分区表以上做完,当执行INSERT时,分区表会根据分区架构将记录插入不同的NDF文件中;当执行SELECT时,分区表也会根据分区架构从不同的NDF中查寻。具体实现如下:CREATE PARTITION FUNCTION FiveYearDateRangePFN(datetime)ASRANGE 阅读全文
posted @ 2012-10-07 22:33
bobsoft
阅读(505)
评论(0)
推荐(0)
摘要:
快照复制 1、概念 快照复制是完全按照数据和数据库对象出现时的状态来复制和分发它们的过程。快照复制不需要连续地监控数据变化,因为已发布数据的变化不被增量地传播到订阅服务器,而是周期性的被一次复制。 2、 适用情况 数据主要是静态的,比如将数据仓库复制到数据集市中 一段时间内允许有已过时的数据拷贝的情况 小批量数据 站点经常脱离连接,并且可接受高延迟 事务复制 1、概念 使用事务复制,初始快照数据将被传播到订阅服务器,因此该订阅服务器就具有了一个所谓的初始负载,这是可以开始工作的内容。当出版服务器上发生数据修改时,这些单独的事务会被及时捕获并复制到订阅服务器。并保留事务边界,当所有的改变都被传播 阅读全文
posted @ 2012-10-07 22:32
bobsoft
阅读(2132)
评论(0)
推荐(0)
摘要:
坚持了两周,终于在linux下把mysql集群数据库给架起来了!下面简单说明下集群数据库原理第一:集群数据库分MGM,NDBD,SQL 其中MGM是相当于“中央政府”,维持NDBD,SQL等服务器的之间的关系的 NDBD是数据存储的分布化,相当于把数据库文件复制了N次,同时保持各NDBD之间的一致性 SQL相当于N个客户端,供应用程序访问第二:这样做的好处 提高了系统的可靠性,其中任何一台NDBD,或SQL服务器挂掉,系统照常运行(当然至少要保证一台NDBD服务器与一台SQL服务器) 提高了系统的访问速度,此架构相当于把数据库存储与查询的压力分解到N台机器上 系统架构的性价比提高了,可以把N台 阅读全文
posted @ 2012-10-07 22:32
bobsoft
阅读(112)
评论(0)
推荐(0)
摘要:
满足海量存储需求和访问的面向文档的数据库:MongoDB,CouchDB MongoDB Nice, I like it very much. 面向文档的非关系数据库主要解决的问题不是高性能的并发读写,而是保证海量数据存储的同时,具有良好的查询性能。MongoDB是用C++开发的,而CouchDB则是Erlang开发的: 1、MongoDB MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似 json的bjson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大... 阅读全文
posted @ 2012-10-07 22:32
bobsoft
阅读(235)
评论(0)
推荐(0)
摘要:
1、防火墙相关service iptables status 查看iptables状态service iptables restart 服务重启service iptables stop 服务禁用 2、/etc/my.cnf 相关[mysqld] default-character-set=utf8 #修改bind-address,指定为本机实际IP地址 bind-address = 本机地址 0.0.0.0 代表所有都可以访问#指定运行mysql进程的用户 3、进入mysql 给相关的用户权限即可 阅读全文
posted @ 2012-10-07 22:31
bobsoft
阅读(147)
评论(0)
推荐(0)
摘要:
最近把MYSQL集群给研究了下,并做了一个测试,且成功了!现在总结如下:一、规划好节点MGM:192.168.79.135NDB1:192.168.1.79.136NDB2:192.168.1.79.139SQL1:192.168.1.79.137SQL2:192.168.1.79.138二、基础环境如下Red Hat Enterprise Linux Server release 5.4MGM包括:MySQL-Cluster-gpl-client-7.1.15a-1.rhel5.i386.rpm MySQL-Cluster-gpl-management-7.1.15a-1.rhel5.i38 阅读全文
posted @ 2012-10-07 22:31
bobsoft
阅读(308)
评论(0)
推荐(0)
摘要:
经过一个多月的测试MYSQL的双机同步数据还是很不错的。在家庭ADSL的4M的带宽下,有10个人在应用此网络,MYSQL数据同步还是照样正常,我想在正常的平台环境肯定更即时,效率更高!但同时需要注意思如下问题1.max_allowed_packet设置主从要一样,为什么要一样?原因如下:如果主服务器设置为10M,从服务器设置为5M,如果在主服务器上导入一个7M的数据包,那么同步机制就会出问题,因为从服务器最大为5M2.slave_compressed_protocol=true设置3.replicate-do-db最好设置只要同步的数据库名4.set global sql_slave_skip 阅读全文
posted @ 2012-10-07 22:31
bobsoft
阅读(229)
评论(0)
推荐(0)
摘要:
CREATE TABLE ts (id INT, purchased DATE)PARTITION BY RANGE( YEAR(purchased) )SUBPARTITION BY HASH( TO_DAYS(purchased) ) (PARTITION p0 VALUES LESS THAN (1990) (SUBPARTITION s0DATA DIRECTORY = '/disk0/data'INDEX DIRECTORY = '/disk0/idx',SUBPARTITION s1DATA DIRECTORY = '/disk1/data& 阅读全文
posted @ 2012-10-07 22:30
bobsoft
阅读(495)
评论(0)
推荐(0)
摘要:
悲观锁:假定会发生并发冲突,屏蔽一切可能违反数据完整性的操作,这样保证了数据的完整性,同时防止读脏,独占时间长Read锁:当前会话read时,另一会话只能读,不能写Write锁:当前会话write时,另一会话所有操作等待乐观锁:假设不会发生并发冲突,只在提交操作时检查是否违反数据完整性,保证了数据的完整性,但不能防止读脏,并发度高“ 提交版本必须大于记录当前版本才能执行更新 “ 的乐观锁策略 阅读全文
posted @ 2012-10-07 22:30
bobsoft
阅读(142)
评论(0)
推荐(0)
摘要:
1.Hadoop架构分两部份:Map与Reduce2.Hadoop运行总体印象:第一步:Hadoop框架将输入的数据(HDFS:分布式文件系统),分割成固定大小的Splits(大小为64M),为每一个Split创建一个Map任务用于执行程序员写的map函数。Split的格式: K->每行首字母在文件中的偏移量 V->每行的字符;如 第二步:将作为参数传递给map(由程序员自定义逻辑处理它),map生成 K1->为每个字符 V1->出现的次数; 如 第三步:对K1进行排序;如 第四步:Combine进行组合,将结果传给reduce函数;如 第五步:reduce函数(由程序 阅读全文
posted @ 2012-10-07 22:29
bobsoft
阅读(172)
评论(0)
推荐(0)
摘要:
1.在运行select count(1) from tab时,会启动hadoop的job,需要对 hdfs/tmp设置 组写权限 hadoop fs -chmod g+w /tmp 原因:Hive将HSQL解析成Hadoop的job,job在中间运行会对 hdfs/tmp操作写入操作 (2012-0... 阅读全文
posted @ 2012-10-07 22:29
bobsoft
阅读(141)
评论(0)
推荐(0)
摘要:
最近一直在研究HIVE,虽说没有掌握,但有所了解!首先.Hive是基于GOOGLE的HADOOP上的一个数据仓库解决平台这个平台将数据存储在HADOOP的HDFS上把用户的SQL命令解析成HADOOP的job任务然后.说说这样的做的好处数据仓库存有大量的数据,查询,分析,统计将消耗很多的资源而Hiv... 阅读全文
posted @ 2012-10-07 22:28
bobsoft
阅读(1033)
评论(0)
推荐(0)
摘要:
1、配置远程服务器MYSQL,并保证远程可以访问2、$HIVE_HOME/conf/hive-site.xml 关键配置如下 hive.metastore.local false controls whether to connect to remove metastore server or o... 阅读全文
posted @ 2012-10-07 22:28
bobsoft
阅读(1457)
评论(0)
推荐(0)
摘要:
前提:eclipse与hadoop的配置成功总结:1.创建一个hadoop项目 导入hadoop包: hadoop-0.20.2-core.jar hadoop-0.20.2-ant.jar hadoop-0.20.2-tools.jar2.创建一个WordCount.java源码import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path; import org.apache.h 阅读全文
posted @ 2012-10-07 22:28
bobsoft
阅读(415)
评论(1)
推荐(0)
摘要:
HADOOP API 主要组成包1、org.apache.hadoop.conf 源码路径: \src\core\org\apache\hadoop\conf作用:定义了系统参数的配置文件处理API2、org.apache.hadoop.fs 源码路径: \src\core\org\apache\hadoop\fs作用:定义了抽象的文件系统API3、org.apache.hadoop.hdfs 源码路径: \src\hdfs\org\apache\hadoop\hdfs作用:分布式文件系统的模块实现4、org.apache.hadoop.io 源码路径 \src\core\org\apache 阅读全文
posted @ 2012-10-07 22:27
bobsoft
阅读(328)
评论(0)
推荐(0)
摘要:
自上周写了第一个HADOOP程序以来,一直没有对开发环境的搭建总结,现总结如下一、安装Cygwin1.安装路径c:/Cygwin2.下载路径X:/Cygwin/3.需要下载如下包 Net Category下的OpenSSL,OpenSSH; Base Category下的sed; Editors Category下的vim,Emacs; Devel Category下的subversion,binutils,gcc,gcc-mingw,gdb4.安装sshd服务 启动cygwin输入命令:ssh-host-config; 根据提示进行相应的操作直至安装完成,安装成功后立即启动名称为“CYGWI 阅读全文
posted @ 2012-10-07 22:27
bobsoft
阅读(236)
评论(0)
推荐(0)
摘要:
最近在试验HBASE,HIVE与应用程序的结合,故配置一下开发环境Hbase方法1.将hbase压抑至Cygwin目录下2.配置两个主要文件conf/hbase-site.xml conf/hbase-env.sh hbase.rootdir hdfs://127.0.0.1:9000/hbas... 阅读全文
posted @ 2012-10-07 22:26
bobsoft
阅读(313)
评论(0)
推荐(0)
摘要:
以下即是checkpoint过程:辅助Namenode请求主Namenode停止使用edits文件,暂时将新的写操作记录到一个新文件中,如edits.new。辅助Namenode节点从主Namenode节点获取fsimage和edits文件(采用HTTP GET)辅助Namenode将fsimage文件载入到内存,逐一执行edits文件中的操作,创建新的fsimage文件辅助Namenode将新的fsimage文件发送回主Namenode(使用HTTP POST)主Namenode节点将从辅助Namenode节点接收的fsimage文件替换旧的fsimage文件,用步骤1产生的edits.ne 阅读全文
posted @ 2012-10-07 22:26
bobsoft
阅读(380)
评论(0)
推荐(0)
摘要:
1.创建一个hadoop项目(导入hadoop相关包,hbase-0.90.5.jar,zookeeper-3.3.2.jar)2.创建测试数据(2.txt 上传至hdfs://127.0.0.1:9000/tmp/2.txt)1150,content,email,xx@gmail.com1152,... 阅读全文
posted @ 2012-10-07 22:25
bobsoft
阅读(627)
评论(3)
推荐(0)
摘要:
1.http://www.hadoopor.com/ 开发包2.http://apache.etoak.com/ 软件包3.http://svn.apache.org/repos/asf/ 源码4.http://hadoop.apache.org/common/docs/r0.20.2/cn/mapred_tutorial.html中文教程5.http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499112.html; HBASE访问说明6.http://blog.csdn.net/flyeagle88/article/details/754 阅读全文
posted @ 2012-10-07 22:25
bobsoft
阅读(164)
评论(0)
推荐(0)
摘要:
一.准备工作。1.eclipse,tomcat的安装,这个就不说了二.开始开发WEBSERVICE。1.new->other->web->Dynamic Web Project 我的项目名称Ws2.项目的右键Build Path->Configure Build Path->Java Build Path->Source->Default outer folder.原来是Ws/bulid/classes改成Ws/WebContent/WEB-INF/classes3.建立一个用于发布WEB服务的java类。public class SayHi {pub 阅读全文
posted @ 2012-10-07 22:24
bobsoft
阅读(186)
评论(0)
推荐(0)
摘要:
import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.h... 阅读全文
posted @ 2012-10-07 22:24
bobsoft
阅读(227)
评论(0)
推荐(0)
摘要:
方法与通过jsp请求Servlet来操作HBASE一样,只是把java转成webserivces 阅读全文
posted @ 2012-10-07 22:23
bobsoft
阅读(146)
评论(0)
推荐(0)
摘要:
1.在eclipse下创建一个动态的Web项目2.创建一个jsp与Servlet3.在Web项目的WEB-INF\lib导入如下包4.同时在Web项目的WEB-INF\目录 导入两个配置文件<1.hbase-default.xml--- hbase\src\main\resources\hbase-... 阅读全文
posted @ 2012-10-07 22:23
bobsoft
阅读(503)
评论(0)
推荐(0)
摘要:
环境准备1.hadoop运行正常2.mysql运行正常,能访问方法1.下载sqoop-1.4.1-incubating__hadoop-0.20.tar.gz安装至/sqoop-1.4.12.将mysql-connector-java-5.1.21-bin.jar复制至/sqoop-1.4.1/li... 阅读全文
posted @ 2012-10-07 22:22
bobsoft
阅读(189)
评论(0)
推荐(0)
摘要:
1.启动hive2.启动hive远程服务端口---- bin/hive --service hiveserver 50031 &3.在eclipse创建一个hadoop项目,导入 hadoop.jar,hive等相关的jar包至项目3.一个测试代码HiveTestCase.javaimport ja... 阅读全文
posted @ 2012-10-07 22:22
bobsoft
阅读(629)
评论(0)
推荐(0)
摘要:
secondarynamenode的作用就是用来做checkpoint---相当于对NameNode节点的元数据备份现在将secondarynamenode部署在另一台机器,是为了引入Zookeeper做自动切换具体方法如下1.修改conf/core-site.xml增加或修改 fs.checkpoint.period 3600 The number of seconds between two periodic checkpoints. fs.checkpoint.size 67108864 The size of the current edit log (in bytes) tha... 阅读全文
posted @ 2012-10-07 22:21
bobsoft
阅读(603)
评论(0)
推荐(0)
摘要:
前提准备1.hadoop运行正常方法1.下载pig-0.9.2.tar.gz 解压至 C:\cygwin\pig-0.9.22./etc/profile里配置 export PATH=$PATH;$HADOOP_HOME/bin (因为Pig是hadoop的一个客户端软件,需要调用hadoop的相关... 阅读全文
posted @ 2012-10-07 22:21
bobsoft
阅读(243)
评论(0)
推荐(0)
摘要:
采用FACEBOOK的AvatarNode来实现Hadoop的双机热备功能具体如下一.环境机器Primary:192.168.17.130Standby/NFS:192.168.17.131AvatarDataNode:192.168.17.132软件hadoop-release-0.20.2编译生成的hadoop-0.20.2-highavailability.jar,hadoop-0.20.3-dev-core.jar两个更新包二.具体部署过程1.在192.168.17.130,192.168.17.131,192.168.17.132上创建如下目录/home/hadoop/share/h 阅读全文
posted @ 2012-10-07 22:13
bobsoft
阅读(246)
评论(0)
推荐(0)
摘要:
1.源码位置SVN获取 http://svn.apache.org/repos/asf/hadoop/common/tags/release-0.20.22.进入目录 ant 即可实现编译(保证ant安装正确,build.xml有此文件) 1.根据build.xml 会自动生成相应的class与jar3.手工生成相应的包hadoop-0.20.2-ant.jarhadoop-0.20.2-core.jarhadoop-0.20.2-examples.jarhadoop-0.20.2-test.jarhadoop-0.20.2-tools.jar比如手工生成hadoop-0.20.2-core. 阅读全文
posted @ 2012-10-07 22:13
bobsoft
阅读(230)
评论(0)
推荐(0)

浙公网安备 33010602011771号