随笔分类 - 数据仓库
摘要:Teradata在整体上是按Shared Nothing 架构体系进行组织的,他的定位就是大型数据仓库系统,定位比较高,他的软硬件都是NCR自己的,其他的都不识别;所以一般的企业用不起,价格很贵。由于Teradata通常被用于OLAP应用,因此单机的Teradata系统很少见,即使是单机系统,Ter
阅读全文
摘要:一, 下面一张图为传统架构和Hadoop的区别 主要讲以下横向扩展和扩展横向扩展:(Mpp 是hash分布,具有20节点)添加新的设备和现有的设备一起提供负载能力。Hadoop中系统扩容时,系统平台增加新节点之后,系统自动在所有节点之间均衡数据。纵向扩展:(oracle两个节点)向上扩展,指的是替换
阅读全文
摘要:一:优化说明A:有数据表明,用户可以承受的最大等待时间为8秒。数据库优化策略有很多,设计初期,建立好的数据结构对于后期性能优化至关重要。因为数据库结构是系统的基石,基础打不好,使用各种优化策略,也不能达到很完美的效果。B:数据库优化的几个方面这里写图片描述可以看出来,数据结构、SQL、索引是成本
阅读全文
摘要:一 数据库 1.1 数据库事务特性ACID 原子性Atomicity,一致性Consistency,隔离性Isolation,持续性Durability 1.2 锁有几种,及范围 从数据库系统角度分为三种:排他锁、共享锁、更新锁。按作用范围划分为:行锁、表锁。 S锁,也叫读锁,用于所有的只读数据操作
阅读全文
摘要:写在前面 本文是分布式数据库的总纲文章的第一部分,主要探讨分析性分布式数据库的发展和技术差异;第二部分则是交易性数据库的一些关键特性分析。Ivan开始计划的分布式数据库是不含分析场景的,所以严格来说本篇算是番外篇,后续待条件具备将以独立主题的方式展开。 特别说明:本文是原创文章,首发在DBAplus
阅读全文
摘要:0x00 前言 本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。 全文由下面几个部分组成: 先分享一下拉链表的用途、什么是拉链表。 通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。 举一个具体的应用场景,来设计并实现一份
阅读全文
摘要:数据管理器 在这一步,查询管理器执行了查询,需要从表和索引获取数据,于是向数据管理器提出请求。但是有 2 个问题: 关系型数据库使用事务模型,所以,当其他人在同一时刻使用或修改数据时,你无法得到这部分数据。 数据提取是数据库中速度最慢的操作,所以数据管理器需要足够聪明地获得数据并保存在内存缓冲区内。
阅读全文
摘要:摘要: 在阿里巴巴在线在线技术峰会上的第三天,来自阿里云高级技术专家李金波为大家题为《企业大数据平台仓库架构建设思路》。本次分享中,李金波主要从总体思路、模型设计、数加架构、数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库。 本文根据阿里云高级技术专家李金波在首届阿里巴
阅读全文
摘要:安装前介质准备: DBI-1.636.tar.gz DBD-mysql-4.037.tar.gz ETL.tar mysql-5.6.12-linux-glibc2.5-x86_64.tar.gz Perl下载地址:http://www.cpan.org/modules/by-module/ 第一部
阅读全文
摘要:政府大数据平台定位 政府大数据平台不仅是国家大数据战略的重点项目,同时也是智慧城市公共信息平台和应用体系建设的重要组成部分。该平台将以城市统一的地理 空间架构和人口、法人等信息资源为基础,叠加各部门、各行业相关业务信息,围绕各部门资源共享范围和授权使用范围,建设信息化支撑平台,加快促进跨部门协 同应
阅读全文
摘要:我是从2000年开始接触数据仓库,大约08年开始进入互联网行业。很多从传统企业数据平台转到互联网同学是否有感觉:非互联网企业、互联网企业的数据平台所面向用户群体是不同的。 那么,这两类的数据平台的建设、使用用户又有变化?数据模型设计又有什么不同呢? 我们先从两张图来看用户群体的区别。 用户群体之非互
阅读全文
摘要:话题背景: 首先,先科普下“数据架构师”的相关职责:数据架构师要负责建立和维持公司数据储存的技术基准,策划硬体和软体的结构,确保数据储存系统可以支持未来的数据量和分析需求。 据了解,美国地区数据架构师的薪资范围是 $65,928 到 $147,868 美元,中间值为 $105,581 美元,以目前的
阅读全文
摘要:【IT168 专稿】本文根据【2016 第七届中国数据库技术大会】现场演讲嘉宾白芸老师分享内容整理而成。录音整理及文字编辑IT168@杨璐@ZYY 讲师简介 ▲人大金仓大数据业务部总监 白芸 白芸,毕业于中国人民大学信息学院,获得计算机及应用专业硕士学位。 毕业后进入北京人大金仓信息技术股份有限公司
阅读全文
摘要:介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的基础
阅读全文
摘要:这些年,几乎都与ETL打交道,接触过多种ETL工具。现将这些工具做个整理,与大家分享。 一 ETL工具 【国外】 1. datastage 点评:最专业的ETL工具,价格不菲,使用难度一般 下载地址:ftp://ftp.seu.edu.cn/Pub/Develop ... taStage.v7.5.
阅读全文
摘要:teradata培训文档 http://wenku.baidu.com/view/ec44c201cc175527072208ba.html Teradata 和Greenplum 的讨论 http://www.itpub.net/forum.php?mod=viewthread&action=pr
阅读全文
摘要:http://www.itpub.net/thread-1320024-1-3.html
阅读全文
摘要:认识 Numa 架构 从系统架构来看,目前的商用服务器大体可以分为三类,即对称多处理器结构 (SMP : Symmetric Multi-Processor) ,非一致存储访问结构 (NUMA : Non-Uniform Memory Access) ,以及海量并行处理结构 (MPP : Massi
阅读全文
摘要:概述 数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应。 主题导向(Subject-Oriented
阅读全文
摘要:http://www.itpub.net/thread-1320024-1-1.html
阅读全文
浙公网安备 33010602011771号