10 2012 档案

摘要:数据集结元数据:数据需要的信息:数据传输计划和特殊的传输结果;数据传送区的文件用法,包括持续时间消耗的所有者信息维度表管理:规范化维度的定义和规范化事实的定义;关联job的规范,剥除域,查找属性;降低每一个引入描述属性维度规则的变化速度,每一个生产键所分配的当前代理键,也包括在内存中执行映射的查找表;前一天生产维度的复本,作为比较差异基础;换换和聚合:数据清洗规范;数据增加和映射转换;为数据挖掘所准备的数据转换;目标计划设计,源和目标数据流,和目标所有权;数据库管理系统的导入脚本;聚合定义;聚合用法统计,基础数据表使用统计,以及潜在的聚合;聚合更改日记;审计,工作日志和文档:数据沿袭和审计记录 阅读全文
posted @ 2012-10-23 20:38 honkcal 阅读(615) 评论(0) 推荐(0)
摘要:装载数据仓库过程中,不管作业是实时执行还是批处理方式执行,其调度时间,执行顺序和执行环境都是关键点。本章描述创建一个ETL操作策略,来保证数据仓库的数据即时可用。ETL执行策略分为两种:1 调度 2 支持(为了确保etl过程运行完成,数据仓库必须能够被监控活动情况,并且必须有人专门支持)调度工具:任何企业数据仓库都必须拥有一个健壮的企业级ETL调度机制。主流的ETL供应商都提供其核心的ETL引擎提供打包的调度器ETL调度器必须的功能:1 令牌识别(ETL如何知道外部源的数据文件已经达到并开始其处理过程?ETL系统必须能够识别文件已经在文件系统中存在,并自动开始执行,这个过程叫做令牌识别)令牌是 阅读全文
posted @ 2012-10-23 14:09 honkcal 阅读(773) 评论(0) 推荐(0)
摘要:要进入开发阶段,了解不同的ETL产品。整个ETL系统中,时间或更精确的,吞吐量是主要关心的内容。这种转换处理任务设计的主要目的归根结底是使得数据装载到展现表中最快并使得最终用户能快速的从这些表中得到响应。推或者拉:推,是源系统主动把文件推向ETL服务器,拉是ETL服务器主动从文件服务器上抽取文件。无论是推拉都得保证数据没有错误,传输完成,确保传输完全的一个简单的标志是使用标志(信号)文件。标志仅仅表示它相关的文件的可读性。预装载中的数据排序源数据在数据库中的时候,排序很容易通过数据库,查询数据的order by来实现,但是如果源数据来自平面文件,那么开始ETL处理之前需要一个排序的程序:在主机 阅读全文
posted @ 2012-10-12 23:12 honkcal 阅读(842) 评论(0) 推荐(0)
摘要:(下面是转发)数据库表A有十万条记录,查询速度本来还可以,但导入一千条数据后,问题出现了。当选择的数据在原十万条记录之间时,速度还是挺快的;但当选择的数据在这一千条数据之间时,速度变得奇慢。凭经验,这是索引碎片问题。检查索引碎片DBCC SHOWCONTIG(表),得到如下结果:DBCC SHOWCONTIG 正在扫描 'A' 表...表: 'A'(884198200);索引 ID: 1,数据库 ID: 13已执行 TABLE 级别的扫描。- 扫描页数.....................................: 3127- 扫描扩展盘区数.... 阅读全文
posted @ 2012-10-12 16:38 honkcal 阅读(438) 评论(0) 推荐(0)
摘要:查看 sql server 连接数的指令为:sp_who 、 sp_who active 、sp_who2 和 sp_who2 active,至于其中的区别,请大家search一下,这里不再解释了(附带的转发东西)由于公司最近两个Web站点做了负载均衡,但是缓存机制仍然是 Asp.Net 自带的缓存,这样就导致了每台Web 服务器内存中都有一份缓存,直接导致了多次请求DB数据库,造成了DB连接数过高。由于是两个较大的站点两台服务器做负载均衡(负载平衡),所以,DB 的连接数也飙升,几乎翻了3倍。公司DB服务器用的是 Sql Server 2008 R2 ,并且DB服务器配置是相当的强悍的,连接 阅读全文
posted @ 2012-10-12 16:02 honkcal 阅读(632) 评论(0) 推荐(0)
摘要:今天早晨遇到问题,一个表有数据,查询能出来,插入怎么都插入不进去,update也是失败,delete也是失败。最后突然好了,也没找到原因,郁闷死。估计就是思索等问题导致,于是查了一下。下面的是复制的。转发的。Sys.SysProcesses 系统表是一个很重要的系统视图,主要用来定位与解决Sql Server的阻塞和死锁。MSDN:包含正在 SQL Server 实例上运行的进程的相关信息。这些进程可以是客户端进程或系统进程。视图中主要的字段:1. Spid:Sql Servr 会话ID2. Kpid:Windows 线程ID3. Blocked:正在阻塞求情的会话 ID。如果此列为 Null 阅读全文
posted @ 2012-10-12 15:58 honkcal 阅读(3391) 评论(0) 推荐(0)
摘要:实事表的基本结构每一个事实表通过表的粒度来定义。粒度必须按照现实的,物理的意义来定义,然后考虑纬度和事实表中的其他字段等因素。所有的事实表包含了一组关联到维表的外建,而这些维表提供了事实表度量的上下文。如果设计的时候没有给与足够的注意,那么就有可能违反事实表上主见的假设,可能在同一时段两个同样的度量事件会发生,但是数据仓库团队没有意识到这一点,显然,每个事实表应该拥有一个主建,即使仅仅是出于管理的需要也应该在事实表上设立主见。如果没有主键完整性,那么事实表中有可能存在两个或者更多一样的记录,而且没有办法按照独立的量测事件来区分他们。确保参照完整性在维度模型中可能有两种情况会导致违反参照完整性: 阅读全文
posted @ 2012-10-10 13:42 honkcal 阅读(915) 评论(0) 推荐(0)
摘要:维度的基础框架主键是指包含一个无意义的,唯一标识数字的字段,数据仓库拥有这些代理键值但并不把他赋给任何实体。维度的主键主要用于连接事实表。因为所有事实表必须保持表的参照完整性,因此维表中的主键连接的字段就称为事实表的外键。(大多数关系型数据库维表和事实表通过单一字段连接获得最大性能,当外键是数字类型的时候事实表是最为紧凑的)维表将其他的一个或者多个字段组成维表的自然键(natural key),自然键是源系统抽取的有意义的字段。比如employeeID。当维表是静态的,不随时间而变化,那么代理键和自然键就是一一对应的关系。后续有缓慢变化的维度,那么每个自然键就有多个代理键,以记录维度信息的历史 阅读全文
posted @ 2012-10-06 00:46 honkcal 阅读(1662) 评论(0) 推荐(0)