09 2019 档案
摘要:./kafka-topics.sh -zookeeper node2:2181,node3,node4 --create --topic t0425 --partitions 3 --replication-factor 3
阅读全文
摘要:discretized 离散化的 http://spark.apache.org/docs/1.6.0/streaming-programming-guide.html#overview [root@node5 ~]# yum install nc [root@node5 ~]# nc -lk 9999 package com.bjsxt.spark; import java.util.Array
阅读全文
摘要:Spark on Hive • Hive只是作为了存储的角色 • SparkSQL作为计算的角色 – Hive on Spark • Hive承担了一部分计算(解析SQL,优化SQL...)的和存储 • Spark作为了执行引擎的角色 Predicate n. 谓语,述语 adj. 谓语的,述语的 v. 使……基于;断言;暗示 谓词下推 (条件往下压了,) transient 英 [ˈtrænzi
阅读全文
摘要:straggling 美 ['strægl] v. 杂乱地蔓延;落伍(straggle 的现在分词) adj. 凌乱的 推测执行机制:默认是关闭的(spark任务慢,启动新线程从头执行);对于ELT数据入库,不能开启此机制,避免数据重复。 v. 杂乱地蔓延;落伍(straggle 的现在分词) ad
阅读全文
摘要:https://www.scala-lang.org/ http://spark.apache.org/docs/1.6.3/ java、scala 基于jvm concise adj. 简明的,简洁的 The Scala Programming Language Scala combines object-oriented and functional programming in...
阅读全文
摘要:Redis 是内存数据库,是nosql数据库。 基于key value存储的数据,key只能是string类型, v 可以使多种类型。 关系型数据库的索引机制; btree SAP HANA ERP 中的HANA是内存数据库。SAP 介绍: http://baijiahao.baidu.com/s?
阅读全文
摘要:lucene : 倒排索引 如下: 我 (1:1) {0} 表示第一行出现一次,索引位置为0 elasticsearch 部署 elasticsearch-2.2.1.zip 192.168.112.101 node1 192.168.112.102 node2 192.168.112.103 node3 三台机器,每台机器上都部署。 es不能以roo...
阅读全文
摘要:添加impala服务 启动impala 默认是 -V 如: [root@node21 ~]# implat-shell -V [root@node21 ~]# implala-shell -p ## 显示详细执行计划
阅读全文
摘要:国内大数据发行版: 星环科技http://www.transwarp.cn/ 华为 ### grant all on *.* to 'temp'@'%' identified by 'temp' with grant option; 报错时参考。 选择免费版本第二项 修改错误点击重新运行。
阅读全文