2015 年 5月随笔档案 - 晋心

Spark源码编译（未完待续）

摘要：在这里我们不需要搭建独立的Spark集群，利用Yarn Client调用Hadoop集群的计算资源。Spark源码编译生成配置包：解压源码，在根去根目录下执行以下命令(sbt编译我没尝试) ./make-distribution.sh --hadoop 2.4.0 --with-yarn --t... 阅读全文

posted @ 2015-05-14 15:57 晋心阅读(266) 评论(0) 推荐(0)

Spark第一个应用程序

摘要：首先要对源码进行编译，生成对应hadoop版本的spark开发程序jar包，上篇已经写了具体的过程，这里不再赘述。在安装spark的机器上，下载eclipse-java-x86_64版本，将spark-assembly.jar和spark/lib下全部加进路径，建立普通java projectWor... 阅读全文

posted @ 2015-05-14 15:46 晋心阅读(890) 评论(0) 推荐(0)

JDBC各种数据库连接方式

摘要：1)连接Oracle 8/8i/9i/10g/11g（thin模式）Class.forName("oracle.JDBC.driver.OracleDriver").newInstance();String url="JDBC:oracle:thin:@localhost:1521:orcl" //... 阅读全文

posted @ 2015-05-13 16:19 晋心阅读(2594) 评论(0) 推荐(1)

Spark SQL 1.3测试

摘要：Spark SQL 1.3参考官方文档：Spark SQL and DataFrame Guide概览介绍参考：平易近人、兼容并蓄——Spark SQL 1.3.0概览 DataFrame提供了一条联结所有主流数据源并自动转化为可并行处理格式的渠道，通过它Spark能取悦大数据生态链上的所有玩家，... 阅读全文

posted @ 2015-05-08 22:09 晋心阅读(2407) 评论(1) 推荐(0)

Spark SQL1.2测试

摘要：Spark SQL 1.2运行原理case class方式json文件方式背景：了解到HDP也能够支持Spark SQL，但官方文档是版本1.2，希望支持传统数据库、hadoop平台、文本格式的整合处理虚线表示还未实现。支持从现有Apache Hive表以及流行的Parquet列式存储格式中读取... 阅读全文

posted @ 2015-05-08 21:02 晋心阅读(1117) 评论(0) 推荐(0)

Spark SQL1.2与HDP2.2结合

摘要：1.hbase相同的rowkey里存在多条记录问题的调研解决方案VERSIONS => 3，Hbaseversion最多插入三条记录将一个集群hbase中表 "VerticalDataTable" 数据插入另一张表时遇到问题,本来有十几个版本，但是只插入了3个版本（还是可以插入成功）搜索后发现是因为... 阅读全文

posted @ 2015-05-02 09:40 晋心阅读(815) 评论(0) 推荐(0)

晋心

05 2015 档案

公告