摘要:http://blog.csdn.net/javaman_chen/article/details/7241087Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源(每一个小文件占用一个Block,每一个block的元数据...
阅读全文
摘要:https://github.com/plaa/mongo-sparkhttps://github.com/mongodb/mongo-hadoophttp://codeforhire.com/2014/02/18/using-spark-with-mongodb/
阅读全文
摘要:http://www.cnblogs.com/byrhuangqiang/p/4017725.html为了在IDEA中编写scala,今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀,学会之后,用起来很顺手。关于如何搭建scala和IDEA开发环境,请看文末的参考资料。用Scala和Jav...
阅读全文
摘要:SoftReferenceWeakReference 的特性基本一致, 最大的区别在于 SoftReference会尽可能长的保留引用,不会在GC时就回收对象,而是直到JVM 内存不足时才会被回收(虚拟机保证), 这一特性使得 SoftReference 非常适合缓存应用http://blog.si...
阅读全文
摘要:http://www.cnblogs.com/c840136/archive/2013/03/10/2952887.htmlhttp://irwenqiang.iteye.com/blog/1535809mapreduce程序效率的瓶颈在于两点: 1:计算机性能 2:I/O操作优化优化无非包括时...
阅读全文
摘要:http://myeyeofjava.iteye.com/blog/1601792Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支...
阅读全文
摘要:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考Hadoop...
阅读全文
摘要:http://blog.csdn.net/anzhsoft/article/details/30802603Spark的Cluster Manager可以有几种部署模式:StandloneMesosYARNEC2Local在向集群提交计算任务后,系统的运算模型就是Driver Program定义的S...
阅读全文
摘要:http://blog.csdn.net/anzhsoft/article/details/39859463当触发一个RDD的action后,以count为例,调用关系如下:org.apache.spark.rdd.RDD#countorg.apache.spark.SparkContext#run...
阅读全文
摘要:http://blog.csdn.net/socoolfj/article/details/3855007最新版本的Hadoop代码中已经默认了Protocol buffer作为RPC的默认实现,原来的WritableRpcEngine已经被淘汰了。来自cloudera的Aaron T. Myers...
阅读全文
摘要:http://blog.csdn.net/yclzh0522/article/details/6859778Map-Reduce的处理过程主要涉及以下四个部分:客户端Client:用于提交Map-reduce任务jobJobTracker:协调整个job的运行,其为一个Java进程,其main cl...
阅读全文
摘要:安装之前准备4台机器:bluejoe0,bluejoe4,bluejoe5,bluejoe9bluejoe0作为master,bluejoe4,5,9作为slavebluejoe0作为namenodebluejoe9为secondary namenodebluejoe4,5,9作为datanode安...
阅读全文
摘要:RDD是个抽象类,定义了诸如map()、reduce()等方法,但实际上继承RDD的派生类一般只要实现两个方法:def getPartitions: Array[Partition]def compute(thePart: Partition, context: TaskContext): Next...
阅读全文
摘要:spark1.1.0的安装参见http://blog.csdn.net/bluejoe2000/article/details/41391407安装了spark之后,可以在 shell中执行Spark SQL。Spark SQL是支持在Spark中使用Sql、HiveSql、Scaca中的关系型查询...
阅读全文
摘要:http://www.cnblogs.com/sharpxiajun/p/3151395.html下面我从逻辑实体的角度讲解mapreduce运行机制,这些按照时间顺序包括:输入分片(input split)、map阶段、combiner阶段、shuffle阶段和reduce阶段。输入分片(inpu...
阅读全文
摘要:我们使用ssh-keygen在ServerA上生成private和public密钥,将生成的public密钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。ServerA上密钥的生成# ssh-keygen -t rsa (连续三次回车,即在本地生成...
阅读全文
摘要:和分布式文件系统和NoSQL数据库相比而言,spark集群的安装配置还算是比较简单的:很多教程提到要安装java和scala,但我发现spark最新版本是包含scala的,JRE采用linux内嵌的版本也是可以的!在主节点(bluejoe0)上安装spark1.1.0:wget http://mir...
阅读全文
摘要:http://blog.csdn.net/msda/article/details/5766917先举个从其他博客(http://www.blogjava.net/andyelvis/archive/2009/05/16/271012.html)上摘抄的例子,比如我去银行办理业务,可能选择排队等候,...
阅读全文
摘要:http://daoger.iteye.com/blog/142485JDK5中的一个亮点就是将Doug Lea的并发库引入到Java标准库中。Doug Lea确实是一个牛人,能教书,能出书,能编码,不过这在国外还是比较普遍的,而国内的教授们就相差太远了。一般的服务器都需要线程池,比如Web、FTP...
阅读全文
摘要:http://blog.csdn.net/haolongabc/article/details/7249098最近想将java基础的一些东西都整理整理,写下来,这是对知识的总结,也是一种乐趣。已经拟好了提纲,大概分为这几个主题: java线程安全,java垃圾收集,java并发包详细介绍,java ...
阅读全文
摘要:http://blog.csdn.net/zhangzhaokun/article/details/6299527一个适当配置的Mongodb分片集群是没有单点故障。本文描述了分片集群中存在的几种不同的潜在的节点故障场景,以及Mongodb对这些节点故障是怎么处理的。1、Mongos节点宕机一个Mo...
阅读全文
摘要:http://wenku.baidu.com/link?url=R-QoZXhc918qoO0BX6eXI9_uPU75whF62vFFUBIR-7c5XAYUVxDRX5Rs6QZR9hrBnUdMdVHNSHdjYtv7i28lCSng1iuWO620ML_wqJZYFgeHadoop源代码分析...
阅读全文
摘要:http://yanbohappy.sinaapp.com/?p=110最新版本的Hadoop代码中已经默认了Protocol buffer(以下简称PB,http://code.google.com/p/protobuf/)作为RPC的默认实现,原来的WritableRpcEngine已经被淘汰了...
阅读全文
摘要:完整的搭建mongodb集群(副本集+分片)的例子。。。准备四台机器,分别是bluejoe1,bluejoe2,bluejoe3,以及bluejoe0副本集及分片策略确定如下:将创建3个副本集,命名为shard1,shard2,shard3;以上3个副本集作为3个分片;每个副本集包含3个副本(主、辅...
阅读全文
摘要:http://www.csdn.net/article/2014-04-09/2819221-build-high-avialable-mongodb-cluster-part-1/1在大数据的时代,传统的关系型数据库要能更高的服务必须要解决高并发读写、海量数据高效存储、高可扩展性和高可用性这些难题...
阅读全文
摘要:http://tech.it168.com/a2012/0401/1333/000001333287.shtml 最近很多人都在讨论Spark这个貌似通用的分布式计算模型,国内很多机器学习相关工作者都在研究和使用它。 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。...
阅读全文
摘要:http://blog.csdn.net/techbirds_bao/article/details/9235309简介:本文主要讲述了 iBatis 2.x 和 MyBatis 3.0.x 的区别,以及从 iBatis 向 MyBatis 移植时需要注意的地方。通过对本文的学习,读者基本能够了解 ...
阅读全文
摘要:http://blog.csdn.net/bluesky5219/article/details/7066174本文主要介绍Spring与Mybatis三种常用整合方法,需要的整合架包是mybatis-spring.jar,可通过链接http://code.google.com/p/mybatis/...
阅读全文
摘要:http://blog.csdn.net/book_mmicky/article/details/392887152014年9月11日,Spark1.1.0忽然之间发布。笔者立即下载、编译、部署了Spark1.1.0。关于Spark1.1的编译和部署,请参看笔者博客Spark1.1.0 源码编译和部...
阅读全文
摘要:http://blog.csdn.net/huzheaccp/article/details/7399124所需要jar包:mybatis-3.x.x.jar 、如果需要和spring整合,还需要加入相关的包1:看项目目录 红颜色不要关心2:按照步骤:1:加入jar包2:创建数据源(configur...
阅读全文
摘要:http://limingnihao.iteye.com/blog/781671一、MyBatis简介与配置MyBatis+Spring+MySql1.1MyBatis简介 MyBatis 是一个可以自定义SQL、存储过程和高级映射的持久层框架。MyBatis 摒除了大部分的JDBC代码、手工设置参...
阅读全文
摘要:http://www.cnblogs.com/pcjim/articles/799302.htmlleft join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录inner join(等值连接) 只返回...
阅读全文
摘要:http://www.cnblogs.com/sopc-mc/archive/2011/11/01/2232212.html MySQL数 据库引擎取决于MySQL在安装的时候是如何被编译的。要添加一个新的引擎,就必须重新编译MYSQL。在缺省情况下,MYSQL支持三个引擎:ISAM、MYISAM...
阅读全文
摘要:http://blog.csdn.net/wdwbw/article/details/4179745分布式事务处理( Distributed Transaction Processing , DTP )涉及多个分布在不同地方的数据库,但对数据库的操作必须全部被提交或者回滚。只要任一数据库操作时失败,...
阅读全文
摘要:http://log-cd.iteye.com/blog/807607分布式事务是指操作多个数据库之间的事务,spring的org.springframework.transaction.jta.JtaTransactionManager,提供了分布式事务支持。如果使用WAS的JTA支持,把它的属性...
阅读全文
摘要:http://lavasoft.blog.51cto.com/62575/53815/一、什么是Java事务通常的观念认为,事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性(atomicity)、一致性(consistency)、隔离性(isolation)和持久...
阅读全文
摘要:http://wangjianwei866.blog.163.com/blog/static/9295823201231665319314/基于以上网文,调整了一下格式,修改了一些标点和拼写错误。一、java并发的开篇1、并发在实际应用中,经常用到线程的并发,那为什么需要用到并发呢,不能独自单独的程...
阅读全文
摘要:http://blog.itpub.net/92530/viewspace-154881/1、SAP基本架构图2、SAP的应用层的工作进程架构图3、SAP的内存类型图4、SAP数据访问架构图SAP NetWeaver包含有应用平台(Application Platform)、人员集成(People ...
阅读全文
摘要:http://www.iteye.com/topic/78674Spring声明式事务让我们从复杂的事务处理中得到解脱。使得我们再也无需要去处理获得连接、关闭连接、事务提交和回滚等这些操作。再也无需要我们在与事务相关的方法中处理大量的try…catch…finally代码。我们在使用Spring声明...
阅读全文
摘要:http://www.blogjava.net/robbie/archive/2009/04/05/264003.html前段时间对Spring的事务配置做了比较深入的研究,在此之间对Spring的事务配置虽说也配置过,但是一直没有一个清楚的认识。通过这次的学习发觉Spring的事务配置只要把思路理...
阅读全文
摘要:http://blog.csdn.net/steryzone/article/details/4997060inner join(等值连接) 只返回两个表中联结字段相等的行left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录right join(右联接) 返回包括右表中的...
阅读全文
摘要:1.IdentityLink与TaskEntityAn identity link is used to associate a task with a certain identity. For example: - a user can be an assignee (= identity li...
阅读全文