摘要: WMSYS.WM_CONCAT: 依赖WMSYS 用户,不同oracle环境时可能用不了,返回类型为CLOB,可用substr截取长度后to_char转化为字符类型LISTAGG : 11g2才提供的函数,不支持distinct,拼接长度不能大于4000,函数返回为varchar2类型,最大长度为4000.with temp as( select 'China' nation ,'Guangzhou' city from dual union all select 'China' nation ,'Shanghai' city f 阅读全文
posted @ 2013-08-30 14:21 oycn0755 阅读(161) 评论(0) 推荐(0)
摘要: 1,SQL自身的优化:调优,并行处理2,stage的拆分与合并:实践测试为准 如多个JOIN的stage双方都为大数量(几百万一般大于200w)则考虑合并。如大表但JOIN的数据不大就不用合并。 如一个stage中的两个表都为大表且关联很慢时考虑拆分为两个stage作Join(select后数据不大:小于40w)3,选用合理的stage: 像sort,之类的尽量少用,在数据库里完成4,大数据量(上千万)上述方法都优化不明显后 可考虑采用直接INSERT 语句 使用Oracle后台处理,而非DS资源抽取插入。DataStage Job优化指导原则之一:算法的优化。 任何程序的优化,第一点首... 阅读全文
posted @ 2013-08-30 10:11 oycn0755 阅读(507) 评论(0) 推荐(0)
摘要: Join: 数据集内连接,外连接(Left,Rigth)Lookup: 数据字典关联,左关联Transform : 数据计算,通过利用系统函数和表达式进行数据列计算转换,输入输出Mapping;数据分流,定义constraints数据分流、过滤。条件表达式:相当于自定义函数Aggregator 汇总Copy 一个数据集复制为多个数据集Filter 一个数据集不同过滤条件 多个输出数据集,一个Reject(条件都不满足时)Funnel 烟囱,多个输入一个输出 ,相当于Union allRemove Duplicates 去重:一个排序的输入一个非重复输出,依据关键字段判断重复数据Sort 排序: 阅读全文
posted @ 2013-08-30 10:03 oycn0755 阅读(450) 评论(0) 推荐(0)
摘要: 块,区间,段,分区,表空间:表和索引由被称为区间(extent)的独立存储单元组成。区间由非常小的称为块(block)的存储单元组成,块大小一般为8kb到32kb。对非分区的表与索引来说,区间是单一段(segment)的一部分,该段表示表或索引的物理存储。分区表或索引则有多个段组成,每个段表示一个分区(partition)段必须属于特定的表空间,表空间定义段的存储特性(如块大小),表空间有多个数据文件组成,段所属的表空间决定了组成这个段的区间都包含在哪些数据文件中。段可以分布在多个数据文件上,但一个区间只能在一个特的那个的数据文件中。 创建用户时指定表空间后才可在用户/Schema下 建表等对 阅读全文
posted @ 2013-08-29 17:44 oycn0755 阅读(110) 评论(0) 推荐(0)
摘要: 1,理解并行SQL2, 何时使用并行SQL: OLAP系统查询大数据量方可考虑使用。 SQL是调优过的;SQL执行最少一次全表、索引或分区扫描;SQL执行时间较长或耗费资源3,配置并行处理:使用提示hint /*+ parallel */, /*+ parallel(t) */ ,/*+ parallel(t,4) */ ,/*+ noparallel */有时不指定并行级别(oracle自决定) 比指定并行度 可能要更好。4,监控并行SQL的性能a,执行计划: Explain Forb,跟踪并行执行:使用SQL tracec, V$PQ_TQSTAT视图 阅读全文
posted @ 2013-08-29 17:21 oycn0755 阅读(207) 评论(0) 推荐(0)
摘要: ETL增量加载常见方法1,时间戳加载:源表时间戳字段,首选。2,日志表方式:源系统增加日志表记录数据更新信息3,全表对比方式:4,全量加载:DM层考虑采用,依据OLAP事实表进一步汇总当作系统数据加载策略方案时,基于以上所列方法,及现有系统 考虑:(1)、如果所集成OLTP系统为其他产商产品,则应尽量的降低因ETL而对现有系统产生的影响,及系统风险性。而性能的影响则可以通过两方面解决,一部分由硬件的升级进行解决,因为ETL除读表及写表操作外,所有转换均由ETL服务器在内存中完成,故高配置服务器将大大提升ETL运行速度;一部分由加载时机进行控制,加载时机采取在系统较为空闲时加载,同时并行多个加载 阅读全文
posted @ 2013-08-29 15:24 oycn0755 阅读(169) 评论(0) 推荐(0)