望穿秋水
管理&技术&业务 项目管理方面:加强通过工具辅助管理,构建Web项目管理系统来协助项目管理。技术开发方面:加强系统分析能力、架构设计能力,时刻把握新技术动态。业务方面:加强需求分析能力,使最终需求来源于客户又高于客户。

随笔分类 -  大数据

上一页 1 2 3 下一页
CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-2设置SSH免密登录
摘要:因为hadoop集群在安装的时候需要集群中所有机器的权限。 所以我们需要打通所有节点的ssh无密码登陆,思路是生成每台机子的密钥,集中在一个文件中,再分发到每台机子上。 为了确保下面的命令能顺利执行,请先重启所有节点并且保证所有节点能够通过主机名ping通。 配置免密登录有两种方式,一种简单的: 1 阅读全文
posted @ 2019-01-26 10:11 望穿秋水 阅读(718) 评论(0) 推荐(0)
CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-总目录
摘要:CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-总目录: 0、Windows 10本机下载Xshell,以方便往Linux主机上上传大文件 1、CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-1虚拟机安装及环境初始化 2、CentOS7+CDH5.14.0安装 阅读全文
posted @ 2019-01-26 09:29 望穿秋水 阅读(474) 评论(0) 推荐(0)
一文看懂大数据的技术生态Hadoop, hive,spark都有了[转]
摘要:大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作 阅读全文
posted @ 2018-12-12 11:18 望穿秋水 阅读(236) 评论(0) 推荐(0)
数据挖掘、机器学习、人工智能学习笔记
摘要:1、三者的区别与联系: https://www.cnblogs.com/DonJiang/p/5744535.html www.raincent.com/content-10-7812-1.html 2、数据挖掘并没有机器学习探索人的学习机制这一科学发现任务,数据挖掘中的数据分析是针对海量数据进行的 阅读全文
posted @ 2018-07-21 09:25 望穿秋水 阅读(373) 评论(0) 推荐(0)
顶级项目孵化的故事系列——Kylin的心路历程【转】
摘要:现在已经名满天下的 Apache Kylin,是 Hadoop 大数据生态系统不可或缺的一部分,要知道在 Kylin 项目早期,可是以华人为主的开源团队,一路披荆斩棘经过几年的奋斗,才在 Apache 基金会牢牢的巩固了自己的位置。作为本土第一个进入到世界顶级基金会的项目,Kylin 的经验是值得大 阅读全文
posted @ 2018-07-07 10:56 望穿秋水 阅读(477) 评论(0) 推荐(0)
多维数据库介绍【转】
摘要:1. 多维数据库简介 多维数据库(Multi Dimesional Database,MDD)可以简单地理解为:将数据存放在一个n维数组中,而不是像关系数据库那样以记录的形式存放。因此它存在大量稀疏矩阵,人们可以通过多维视图来观察数据。多维数据库增加了一个时间维,与关系数据库相比,它的优势在于可以提 阅读全文
posted @ 2018-07-05 11:43 望穿秋水 阅读(839) 评论(0) 推荐(0)
ROLAP、MOLAP和HOLAP区别
摘要:对没有使用过数据仓库的人,对这三个概念确实是有点混淆不清。包括我自己本身不是做数据仓库出身,所以实际上是从实践出发,理论基础是有点匮乏的。 一、基本概念 1. OLAP OLAP(on-Line Analysis Processing)是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致 阅读全文
posted @ 2018-07-05 11:07 望穿秋水 阅读(1751) 评论(0) 推荐(0)
Kylin Cube构建过程优化
摘要:原文地址:https://kylin.apache.org/docs16/howto/howto_optimize_build.html Kylin将一个cube的build过程分解为若干个子步骤,然后串行执行这些子步骤。这些步骤包括Hive操作,MR任务和其他类型的工作。如果每天都有许多cube进 阅读全文
posted @ 2018-07-05 10:51 望穿秋水 阅读(642) 评论(0) 推荐(0)
Kylin介绍,功能特点【转】
摘要:Apache Kylin是一个开源的分布式分析引擎。完全由eBay Inc.中国团队开发 并贡献至开源社区。提供Hadoop之上的SQL查询接口及多维分析(MOLAP)能力以 支持大规模数据能在亚秒内查询巨大的Hive表(十亿百亿的海量数据)。 Apache Kylin社区发展 大数据分析面临的挑战 阅读全文
posted @ 2018-07-05 10:36 望穿秋水 阅读(780) 评论(0) 推荐(0)
Kylin 与 Spark SQL相比,有哪些差异和优势
摘要:SparkSQL本质上是基于DAG模型的MPP。而Kylin核心是Cube(多维立方体)。关于MPP和Cube预处理的差异,重复如下: > MPP [1] 的基本思路是增加机器来并行计算,从而提高查询速度。比如扫描8亿记录一台机器要处理1小时,但如果用100台机器来并行处理,就只要一分钟不到。再配合 阅读全文
posted @ 2018-07-05 10:01 望穿秋水 阅读(1612) 评论(0) 推荐(0)
分布式大数据多维数据分析(olap)引擎kylin[转]
摘要:Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,查询引擎,Job引擎及 阅读全文
posted @ 2018-07-05 09:57 望穿秋水 阅读(2213) 评论(0) 推荐(0)
Hive和并行数据仓库的比较
摘要:最近分析和比较了Hive和并行数据仓库的架构,本文记下一些体会。 Hive是架构在Hadoop MapReduce Framework之上的开源数据分析系统。 Hive具有如下特点: 1. 数据以HDFS文件的形式存储,从而可以很方便的使用外部文件 2. 元数据存储独立于数据存储之外,从而解耦合元数 阅读全文
posted @ 2018-06-30 08:57 望穿秋水 阅读(469) 评论(0) 推荐(0)
sqlserver2017 +SSMS+ VS2017+SSDT 安装要点及相关组件下载地址
摘要:1、sqlserver2017安装PolyBase需要安装jdk7 ,注意必须是7 jdk10是不行的。 下载地址:http://dl-t1.wmzhe.com/30/30117/jdk_7u_1.7.0.0_64.exe 2、sqlserver安装完成之后是没有SSMS客户端管理环境的,这个是单独 阅读全文
posted @ 2018-06-29 11:33 望穿秋水 阅读(6090) 评论(0) 推荐(0)
从数据仓库到大数据,数据平台这25年是怎样进化的?[转]
摘要:从数据仓库到大数据,数据平台这25年是怎样进化的? 大数据平台 lxw1234@qq.com 2年前 (2016-03-23) 5778℃ 2评论 从「数据仓库」一词到现在的「大数据」,中间经历了太多的知识、架构模式的演进与变革。数据平台这25年究竟是怎样进化的?让InfoQ特约老司机为你讲解。 我 阅读全文
posted @ 2018-06-29 10:55 望穿秋水 阅读(860) 评论(0) 推荐(0)
大数据环境下互联网行业数据仓库/数据平台的架构之漫谈-续【转】
摘要:上次写的《大数据环境下互联网行业数据仓库/数据平台的架构之漫谈》一文,已是一年前的事了,经过一年的沉淀与公司业务的发展,大数据平台的架构也有所演进,本文简单介绍了架构更新的部分。 整体架构 数据采集 对于关系型数据库以及部分NOSQL(Redis、MongoDB)中的数据,仍然使用DataHub按天 阅读全文
posted @ 2018-06-29 10:54 望穿秋水 阅读(356) 评论(0) 推荐(0)
大数据分析界的“神兽”Apache Kylin有多牛?【转】
摘要:本文作者:李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay、微软。 1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具( 阅读全文
posted @ 2018-06-29 10:54 望穿秋水 阅读(350) 评论(0) 推荐(0)
民生银行十五年的数据体系建设,深入解读阿拉丁大数据生态圈、人人BI 是如何养成的?【转】
摘要:早在今年的上半年我应邀参加了由 Smartbi 主办的一个小型数据分析交流活动,在活动现场第一次了解到了民生银行的阿拉丁项目。由于时间关系,嘉宾现场分享的内容非常有限。凭着多年对行业研究和对解决方案的嗅觉与敏感性,意识到这个阿拉丁项目的完整性和独特性超出了以往我所接触过的所有 BI 领域的项目案例, 阅读全文
posted @ 2018-06-29 10:54 望穿秋水 阅读(390) 评论(0) 推荐(0)
最全的“大数据”学习资源
摘要:关系数据库管理系统(RDBMS) 框架 分布式编程 分布式文件系统 文件数据模型 Key -Map 数据模型 键-值数据模型 图形数据模型 NewSQL数据库 列式数据库 时间序列数据库 类SQL处理 数据摄取 服务编程 调度 机器学习 基准测试 安全性 系统部署 应用程序 搜索引擎与框架 MySQ 阅读全文
posted @ 2018-06-29 10:54 望穿秋水 阅读(683) 评论(0) 推荐(0)
60款顶级大数据开源工具
摘要:一、Hadoop相关工具 1. Hadoop Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。 支持的操作系统:Windows、Linux和OS X。 相关链接:http://hadoop.apache.org 阅读全文
posted @ 2018-06-29 10:54 望穿秋水 阅读(139) 评论(0) 推荐(0)
SPSS SAS 是什么?
摘要:SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领 阅读全文
posted @ 2018-06-29 10:54 望穿秋水 阅读(2861) 评论(0) 推荐(0)

上一页 1 2 3 下一页