随笔分类 - 大数据相关
摘要:使用windows开发producer然后向远程的kakfa集群发送数据,但是一直卡着, 在window的hosts文件添加kafka集群的主机名和ip的映射就好了 网上搜了下,大致是producer需要获取zookeeper的位置。
阅读全文
摘要:最近项目需要对数据做打平操作,原有的sql使用了not in,但是hive 不支持 not in,晚上搜索了下使用 left outer join 通过这个发现where条件作用在join后的结果集上,不知道关系性数据库是不是这样,有时间验证下
阅读全文
摘要:最近使用SparkSQL做数据的打平操作,就是把多个表的数据经过关联操作导入到一个表中,这样数据查询的过程中就不需要在多个表中查询了,在数据量大的情况下,这样大大提高了查询效率。 我启动了thriftserver,然后通过beeline去连接thriftserver, 打平操作进行的很顺利,但是在执
阅读全文
摘要:Sequoiadb作为一个文档型NoSQL数据既可以存储结构化数据也可以存储非结构化数据,对于非结构化数据只能使用原生的API进行查询,对结构化数据我们可以选择使用原生的API和开源SQL引擎,目前PostgresSQL,Hive,SparkSQL都可以作为Sequoiadb的SQL引擎,应用中该如
阅读全文
摘要:spark的序列化主要使用了hadoop的writable和java的Serializable。 说到底就是使用hadoop的writable替换了java的默认序列化实现方式。 这个有个让人疑惑的地方是使用@transient 表示该值不会被序列化,我做个一个测试是可以的,为什么呢,因为spark
阅读全文
摘要:pentaho可以和hive做对接,所以和spark-sql做对接也是妥妥的。结果让人很失望了啊,我配置了很久都搞不定,最后脑袋突然灵机一动打通了。 1:替换pentaho自带的hive驱动。 路径 :biserver-ce\tomcat\webapps\pentaho\WEB-INF\lib 删除
阅读全文
摘要:我使用3台Centos虚拟机搭建了一个Hadoop2.6的集群。希望在windows7上面使用IDEA开发mapreduce程序,然后提交的远程的Hadoop集群上执行。经过不懈的google终于搞定 开始我使用hadoop的eclipse插件来执行job,竟然成功了,后来发现mapreduce是在
阅读全文
摘要:1:安装配置mysql yum install mysql mysql-server service mysqld start mysqladmin -u root password newpassword mysql -u root -p 登录mysql mysql>GRANT ALL PRIVI
阅读全文
摘要:开发环境 操作系统:windows 开发工具:IntelliJ IDEA 14.1.1 需要安装scala插件 编译环境:jdk 1.7 scala 2.10.4 使用IDEA开发spark应用 1:新建scala项目: 2:选择scala版本,需要spark的scala版本对应 点击上图Scala
阅读全文
摘要:1:搭建PHP的运行环境 yum install httpd httpd-devel yum install php php-devel yum install php-gd php-imap php-ldap php-odbc php-pear php-xml php-xmlrpc 2:安装seq
阅读全文

浙公网安备 33010602011771号