摘要: 系统环境 centos 7 elasticsearch 6.3 需要 JDK 8 版本,先安装 JDK 8。 ES6.3 安装地址: https://www.elastic.co/guide/en/elasticsearch/reference/6.3/_installation.html JDK 阅读全文
posted @ 2018-05-30 19:08 ReyCG 阅读(179) 评论(0) 推荐(0)
摘要: 1. 与列族数据库相关的设计要点 列族数据库应该事先成稀疏且多维的 map 在列族数据库中,各个数据行所拥有的列是可以有所不同的 列族数据库的列是可以动态添加的 列族数据库不需要执行连接操作,需要对数据模型去规范化处理 2. 设计数据表格时需遵循的建议 用去规范化来代替连接 善用无值的列 同时在列名 阅读全文
posted @ 2018-05-30 15:51 ReyCG 阅读(445) 评论(0) 推荐(0)
摘要: 1. 基础 1.1 Hive 解决问题的背景? 用户如何从一个现有的数据基础架构转移到 Hadoop 上,而这个基础架构是基于传统的关系数据库和 SQL 的? Hive 提供了一个被称为 HQL 的 SQL 语言,来查询存储在 Hadoop 集群中的数据。 1.2 Hive 使用的场合是什么以及它的 阅读全文
posted @ 2018-05-28 15:04 ReyCG 阅读(251) 评论(0) 推荐(0)
摘要: 1. 列族数据库的基本组件 键空间,行键,列,列族 2. 什么是键空间 keyspace? 键空间 keyspace 是列族数据库的顶级数据结构,它在逻辑上能够容纳列族,行键以及与之相关的其他数据结构。 一般来说,每个数据库应用都会有自己的一套键空间。 键空间有些类似于关系型数据库的 schema 阅读全文
posted @ 2018-05-28 11:42 ReyCG 阅读(815) 评论(0) 推荐(0)
摘要: 1. 说出至少 3 项 Google BigTable 的核心特性 开发者可以动态的控制列族中的各列 数据值是按照行标识符,列名及时间戳来定位的 数据建模者和开发者可以控制数据的存储位置 读取操作和写入操作都是原子操作 数据行是以某种顺序进行维护的 2. 列与列族的定义 列是列族数据库的基本存储单元 阅读全文
posted @ 2018-05-28 11:08 ReyCG 阅读(3288) 评论(0) 推荐(0)
摘要: 数据仓库的需求只有在已经装载了部分数据并开始使用时才能弄清楚。数据仓库是在启发方式下建造的, 一个阶段的开发完全依赖于上一阶段获得的结果。 1. 载入一部分数据供 DSS 分析员使用和查看 2. 根据最终用户的反馈,修改数据和/或添加其他数据 3. 建立数据仓库的另一个部分,并返回到步骤 1 上述反 阅读全文
posted @ 2018-05-24 15:13 ReyCG 阅读(704) 评论(0) 推荐(0)
摘要: Hive 在 Hadoop 集群上所有数据的访问都是通过 Java 编写的 MapReduce 作业来完成的,这些让 Java 程序员来完成没有问题。 但是对 SQL 程序员来说,写 MapReduce 则非常困难。Hive 的目的就是允许 SQL 能够访问 HDFS 中的数据。 Hive 定义了一 阅读全文
posted @ 2018-05-24 10:11 ReyCG 阅读(3021) 评论(0) 推荐(0)
摘要: 1. 概述 kylin 是 OLAP 引擎,采用多维立方体预计算技术,可将大数据的 SQL 查询速度提升到亚秒级别。 需求: 虽然像 spark,hive 等使用 MPP 大规模并行处理和列式存储的方式,可以将 Hadoop 的 SQL查询提高到了分钟级别, 但是仍然不能满足数据分析师的要求。在面对 阅读全文
posted @ 2018-05-23 11:46 ReyCG 阅读(454) 评论(0) 推荐(0)
摘要: 数据仓库是一个面向主题的,集成的,非易失的,随时间变化的用来支持管理人员决策的数据集合。 数据仓库的数据通常以批量方式载入与访问,但在数据仓库环境中并不进行数据更新。数据仓库中 的数据在进行装载时是以静态快照的格式进行的。当产生后继变化时,一个新的快照记录就会写入 数据仓库。这样,数据仓库中就保存了 阅读全文
posted @ 2018-05-23 10:24 ReyCG 阅读(268) 评论(0) 推荐(0)
摘要: https://www.harding.edu/fmccown/r/ 这个网站上有壮观的 R 绘制的实际图形 下面只记录自己感兴趣的内容 单变量绘图下包含 1. 带状图 2. 茎叶图 3. 直方图 4. 箱线图 5. 时序图 双变量绘图包含 1. 散点图: 研究两个变量之间的关系 2. 并列箱线图 阅读全文
posted @ 2018-05-15 15:16 ReyCG 阅读(391) 评论(0) 推荐(0)
摘要: hdfs 是分布式文件系统, yarn 类似于云 OS 资源管理器,用来调度各种资源。 mapreduce, spark, storm 是真正运行的进程,干活的,他们都是在 yarn 基础上。他们在运行时都需要调度各种数据资源和计算资源。 mapreduce 就是一个并行计算框架。可以处理日志解析, 阅读全文
posted @ 2018-05-14 15:17 ReyCG 阅读(162) 评论(0) 推荐(0)
摘要: hdfs haddop distributed system 由 name node, secondary name node,data node, client 组成。真正存放数据的就是 data node, 而 name node 则是主要进行进行 data node管理的。一个 name no 阅读全文
posted @ 2018-05-11 10:41 ReyCG 阅读(184) 评论(0) 推荐(0)
摘要: 1. UML 是什么? UML 统一建模语言是一组图形表示法,可以帮助描述和设计软件系统,特别是使用面向对象 OO 风格建造的软件系统。 2. 使用 UML 的方式 UML 有 3 种使用模式:草稿,蓝图和编程语言。最常用的就是将 UML 作为草稿使用。 这里有几个概念: 把 UML 当做草稿的目的 阅读全文
posted @ 2018-03-05 15:30 ReyCG 阅读(220) 评论(0) 推荐(0)
摘要: UML 的首要价值是沟通和理解。好的图形可以帮助沟通设计思想,尤其是要回避许多细节时,图形也可以帮助你理解软件系统或业务流程。作为团队的成员,尝试弄清楚某些东西时,图形有助于理解和沟通整个团队所理解到的东西。虽然图形还没有替换文本编程语言,但它们是很好的助手。 选自《UML精粹》 阅读全文
posted @ 2018-03-05 15:01 ReyCG 阅读(271) 评论(0) 推荐(0)
摘要: scrum 项目中有 3 个主要的角色:产品所有者, Scrum 主管和团队成员 产品所有者和团队其他成员一起工作,负责维护生产积压工作表 (production backlog) ,并对表中的项制定优先级 软件在多轮时间限定的迭代中完成开发,这些迭代称为冲刺。在每轮冲刺开始时,团队进行冲刺规划,从 阅读全文
posted @ 2018-01-10 08:52 ReyCG 阅读(164) 评论(0) 推荐(0)
摘要: 1. 基本概念 1.1 节点和集群 elasticsearch 既可以作为一个独立的搜索服务器,也可以作为一个运行在许多相互合作的服务器上,也就是集群。 作为一个集群的优点是比较明显的,可以处理大型数据集,实现高可用性。 集群的名称为 cluster, 形成集群的每个服务器都称为节点 node。 1 阅读全文
posted @ 2017-12-29 11:26 ReyCG 阅读(504) 评论(0) 推荐(0)
摘要: 选自《学习敏捷——构建高效的团队》 阅读全文
posted @ 2017-12-14 08:35 ReyCG 阅读(453) 评论(0) 推荐(0)
摘要: 1. mapper xml resultMap 中定义 property 时不能出现空格 否则会出现反射错误,找不到 do 对应的 set 方法 阅读全文
posted @ 2017-12-13 17:35 ReyCG 阅读(112) 评论(0) 推荐(0)
摘要: 个体和互动高于流程和文档 可工作的软件高于详尽的文档 客户协作高于合同谈判 响应变化高于遵循计划 阅读全文
posted @ 2017-12-12 14:05 ReyCG 阅读(161) 评论(0) 推荐(0)
摘要: 1. proxy_pass 指令介绍 该指令属于 http_proxy_module, http_proxy_module 模块可以将请求转发到另一台服务器。 在 nginx 反向代理是,会通过 location 功能匹配指定的 URI,然后把接收到的符合匹配 URI的请求通过 proxy_pass 阅读全文
posted @ 2017-12-07 09:00 ReyCG 阅读(1862) 评论(0) 推荐(0)