大数据相关 - 随笔分类(第2页) - 高兴的博客

kafka的producer执行卡住的问题

摘要：使用windows开发producer然后向远程的kakfa集群发送数据，但是一直卡着, 在window的hosts文件添加kafka集群的主机名和ip的映射就好了网上搜了下，大致是producer需要获取zookeeper的位置。阅读全文

posted @ 2015-09-11 16:48 高兴的博客阅读(2700) 评论(0) 推荐(0)

hive的not in

摘要：最近项目需要对数据做打平操作，原有的sql使用了not in,但是hive 不支持　not in,晚上搜索了下使用　left outer join 通过这个发现where条件作用在join后的结果集上，不知道关系性数据库是不是这样，有时间验证下阅读全文

posted @ 2015-08-13 09:38 高兴的博客阅读(1467) 评论(0) 推荐(0)

Spark 1.4.1中Beeline使用的gc overhead limit exceeded

摘要：最近使用SparkSQL做数据的打平操作，就是把多个表的数据经过关联操作导入到一个表中，这样数据查询的过程中就不需要在多个表中查询了，在数据量大的情况下，这样大大提高了查询效率。我启动了thriftserver,然后通过beeline去连接thriftserver，打平操作进行的很顺利，但是在执阅读全文

posted @ 2015-08-08 23:46 高兴的博客阅读(2266) 评论(0) 推荐(0)

Sequoiadb该如何选择合适的SQL引擎

摘要：Sequoiadb作为一个文档型NoSQL数据既可以存储结构化数据也可以存储非结构化数据，对于非结构化数据只能使用原生的API进行查询，对结构化数据我们可以选择使用原生的API和开源SQL引擎，目前PostgresSQL,Hive,SparkSQL都可以作为Sequoiadb的SQL引擎，应用中该如阅读全文

posted @ 2015-08-08 23:30 高兴的博客阅读(1111) 评论(0) 推荐(0)

Spark的序列化

摘要：spark的序列化主要使用了hadoop的writable和java的Serializable。说到底就是使用hadoop的writable替换了java的默认序列化实现方式。这个有个让人疑惑的地方是使用@transient 表示该值不会被序列化,我做个一个测试是可以的，为什么呢，因为spark 阅读全文

posted @ 2015-07-01 17:51 高兴的博客阅读(3418) 评论(0) 推荐(0)

pentaho和spark-sql对接

摘要：pentaho可以和hive做对接，所以和spark-sql做对接也是妥妥的。结果让人很失望了啊，我配置了很久都搞不定，最后脑袋突然灵机一动打通了。 1：替换pentaho自带的hive驱动。路径：biserver-ce\tomcat\webapps\pentaho\WEB-INF\lib 删除阅读全文

posted @ 2015-05-27 15:24 高兴的博客阅读(840) 评论(1) 推荐(0)

在windows远程提交任务给Hadoop集群（Hadoop 2.6）

摘要：我使用3台Centos虚拟机搭建了一个Hadoop2.6的集群。希望在windows7上面使用IDEA开发mapreduce程序，然后提交的远程的Hadoop集群上执行。经过不懈的google终于搞定开始我使用hadoop的eclipse插件来执行job，竟然成功了，后来发现mapreduce是在阅读全文

posted @ 2015-04-29 20:04 高兴的博客阅读(12033) 评论(0) 推荐(0)

把Spark SQL的metadata存储到mysql

摘要：1：安装配置mysql yum install mysql mysql-server service mysqld start mysqladmin -u root password newpassword mysql -u root -p 登录mysql mysql>GRANT ALL PRIVI 阅读全文

posted @ 2015-04-10 18:25 高兴的博客阅读(3571) 评论(3) 推荐(0)

使用IDEA开发SPARK提交remote cluster执行

摘要：开发环境操作系统：windows 开发工具：IntelliJ IDEA 14.1.1 需要安装scala插件编译环境：jdk 1.7 scala 2.10.4 使用IDEA开发spark应用 1：新建scala项目： 2：选择scala版本，需要spark的scala版本对应点击上图Scala 阅读全文

posted @ 2015-04-10 13:38 高兴的博客阅读(15172) 评论(0) 推荐(2)

在centos上安装sequoaidb的php驱动

摘要：1：搭建PHP的运行环境 yum install httpd httpd-devel yum install php php-devel yum install php-gd php-imap php-ldap php-odbc php-pear php-xml php-xmlrpc 2:安装seq 阅读全文

posted @ 2015-01-27 16:51 高兴的博客阅读(262) 评论(0) 推荐(0)

高兴

谨言慎行,格物致知

随笔分类 - 大数据相关

公告