随笔分类 -  大数据相关

摘要:两个重要的技术:Spark和graphs 本章节内容 为什么Spark是最先进的大数据处理系统 是什么让图可以以一种独特的方式来模拟关联数据 GraphX为什么会成规领先的图分析平台 阅读全文
posted @ 2016-12-09 09:44 高兴的博客 阅读(322) 评论(0) 推荐(0)
摘要:2016-11-08 22:21:16,875 ERROR [main-SendThread(ht-lxfx-01:24002)] client.ZooKeeperSaslClient: An error: (java.security.PrivilegedActionException: java 阅读全文
posted @ 2016-11-08 22:35 高兴的博客 阅读(6079) 评论(0) 推荐(0)
摘要:方案背景 Hbase的索引方案有很多,越来越多的人开始选择ES+Hbase的方案,其实该方案并没有想象中那么完美,ES并发低,同时查询速度相对Hbase也慢很多,那为什么会选择他呢,它的写入比较快,如果一个宽表需要建20个索引,在数据导入时,hbase每秒导入20W,那么ES压力就是每秒400W,s 阅读全文
posted @ 2016-03-11 22:48 高兴的博客 阅读(17095) 评论(0) 推荐(2)
摘要:./bin/sparkR --packages com.databricks:spark-csv_2.10:1.3.0 --master yarn hdfs://master:9000/tmp/demo.cvs 替换你的hdfs路径>sc = sparkR.init(master = "yarn″, 阅读全文
posted @ 2016-03-01 14:24 高兴的博客 阅读(2351) 评论(2) 推荐(0)
摘要:1:首先配置hive-site.xml 2: 配置postgresql的jdbc jar路径 在spark-default.properties中配置 问题1 启动thriftserver, 10000监听端口死活打不开。把hive-site.xml重命名,使用默认的derby数据库,可以启动 在网 阅读全文
posted @ 2016-01-08 19:52 高兴的博客 阅读(2737) 评论(0) 推荐(0)
摘要:spark如何读写Sequoiadb,最近被客户问多了,这个记录下。 Spark读Sequoiadb数据: Spark写Sequoiadb 阅读全文
posted @ 2015-12-15 17:14 高兴的博客 阅读(863) 评论(0) 推荐(0)
摘要:本文翻译之cloudera的博客,本系列有两篇,第二篇看心情了 概论 当我们理解了transformation,action和rdd后,我们就可以写一些基础的spark的应用了,但是如果需要对应用进行调优就需要了解spark的底层执行模型,理解job,stage,task等概念。 本文你将会了解sp 阅读全文
posted @ 2015-12-13 19:12 高兴的博客 阅读(3718) 评论(1) 推荐(0)
摘要:本文转之Pivotal的一个工程师的博客。觉得极好。 作者本人经常在StackOverflow上回答一个关系Spark架构的问题,发现整个互联网都没有一篇文章能对Spark总体架构进行很好的描述,作者可怜我们这些菜鸟,写了这篇文章,太感动了。本文读者需要一定的Spark的基础知识,至少了解Spark 阅读全文
posted @ 2015-12-12 20:49 高兴的博客 阅读(15561) 评论(2) 推荐(1)
摘要:hadoop2.2的分布式环境需要配置的参数更多。但是需要安装的系统软件和单节点环境是一样的。 运行hadoop在非安全环境 hadoop的配置文件有两类: 1:只读的默认配置文件: core-default.xml,hdfs-default.xml,yarn-default.xml mapred- 阅读全文
posted @ 2015-11-27 16:56 高兴的博客 阅读(520) 评论(0) 推荐(0)
摘要:TransportContext用来创建TransportServer和TransportclientFactory,同时使用TransportChannelHandler用来配置channel的pipelines,TransportClient提供了两种传输协议,一个是数据层(fetch chun 阅读全文
posted @ 2015-11-22 13:17 高兴的博客 阅读(640) 评论(0) 推荐(0)
摘要:spark将在1.6中替换掉akka,而采用netty实现整个集群的rpc的框架,netty的内存管理和NIO支持将有效的提高spark集群的网络传输能力,为了看懂这块代码,在网上找了两本书看《netty in action》和《netty权威指南》,结合了spark的源码既学习了netty也看完了 阅读全文
posted @ 2015-11-22 12:09 高兴的博客 阅读(790) 评论(0) 推荐(0)
摘要:在上节的解读中发现spark的源码中大量使用netty的buffer部分的api,该节将看到netty核心的一些api,比如channel: 在Netty里,Channel是通讯的载体(网络套接字或组件的连接),而ChannelHandler负责Channel中的逻辑处理,channel支持读,写, 阅读全文
posted @ 2015-11-22 12:09 高兴的博客 阅读(725) 评论(0) 推荐(0)
摘要:最近一直在银行做历史数据平台的项目,目前整个项目处于收尾的阶段,也好有时间整理下在项目中的一些收获。 该历史数据平台使用spark+Nosql架构了,Nosql提供了海量数据的实时查询,而spark提供了sql支持,最开始给客户设计方案的时候,对spark sql也不是很熟悉,只知道它的thrift 阅读全文
posted @ 2015-11-02 22:45 高兴的博客 阅读(6967) 评论(0) 推荐(0)
摘要:Spark作为一个新的分布式计算引擎正慢慢流行起来,越来越来的企业也准备用它的替换MapReduce,根据自己在工作的一些体会谈谈的优势。 分布式计算归根到底还是一个Map和Reduce操作,Map操作对每个数据块进行计算,Reduce操作对结果进行汇总,现在一些NoSQL分布式数据库其实也是这么一 阅读全文
posted @ 2015-10-28 11:28 高兴的博客 阅读(2158) 评论(0) 推荐(1)
摘要:Spark序列化这块网上讲的比较少,自己还没来得及看这块代码,今天编程的时候遇到一个Hadoop的Writerable实现在Spark无法序列化的问题。我的代码如下: 这块代码执行报了如下错误。 因为Spark默认使用Java的序列化,而Writeable没有实现序列化接口,导致整个问题的发生。通过 阅读全文
posted @ 2015-10-23 14:28 高兴的博客 阅读(880) 评论(0) 推荐(0)
摘要:背景 Write Ahead Logs Write Ahead Logs 配置 实现细节 下面讲解下WAL的工作原理。过一下Spark Streaming的架构 当一个Spark Streaming应用启动了(例如driver启动), 相应的StreamingContext使用SparkContet 阅读全文
posted @ 2015-09-29 19:34 高兴的博客 阅读(7282) 评论(0) 推荐(1)
摘要:spark升级到1.5,里面的hive版本升级到1.2.1版本,我写了如下的代码 当依赖的版本是1.5时候,hivecontext不会加载resources里面的hive-site.xml ,我试验了下实例化hiveconf 可以加载。 当依赖的版本是1.4.1的时候,这个时候hivecontext 阅读全文
posted @ 2015-09-24 11:50 高兴的博客 阅读(483) 评论(0) 推荐(0)
摘要:有人问我,如果让我设计广播变量该怎么设计,我想了想说,为啥不用zookeeper呢? 对啊,为啥不用zookeeper,也许spark的最初设计哲学就是尽量不使用别的组件,他有自己分布式内存文件系统,有自己的任务调度(standalone),有自己的sql解析。好吧这也是我喜欢他的地方,一栈式解决方 阅读全文
posted @ 2015-09-14 11:31 高兴的博客 阅读(281) 评论(0) 推荐(0)
摘要:Spark的Rpc模块是1.x重构出来可,以前的代码中大量使用了akka的类,为了把akka从项目的依赖中移除,所有添加了该模块。先看下该模块的几个主要的类 使用EA把该模块所有的类都添加进来了 要看懂该模块还是要先了解akka, akka有Actor和ActorRef两个类,一个用于接收消息,一个 阅读全文
posted @ 2015-09-14 00:05 高兴的博客 阅读(3993) 评论(0) 推荐(0)
摘要:操作系统:windows 10 IDEA : IDEA 14.1.4 1:使用IDEA导入spark 1.5的源码,注意maven配置为自动导入 2:在maven窗口下的profiles中勾选hadoop, hive ,hive-thriftserver,yarn的选项。 3: 在maven窗口下勾 阅读全文
posted @ 2015-09-12 22:03 高兴的博客 阅读(1689) 评论(0) 推荐(0)