GP中的并发控制

Greenplum数据库使用了PostgreSQL的多版本并发控制(MVCC)模型来管理对于堆表的并发事务。

 

铜锅MVCC,每一个查询都在它开始时的一个数据库快照上操作。在执行时,一个查询不能看到其他并发事务所作出的更改。这确保了一个查询看到的是数据库的一个一致的视图。

 

事务ID

  MVCC模型使用事务ID(XID)来判断那些行在一个查询或者事务开始时是可见的。

 

并行数据装载

  在一个大型的、具有数T字节的数据仓库中,必须在一个相对较小的维护窗口内完成对大量数据的装载。

 

GP支持使用其外部表特性的快速、并行数据装载。管理员也可以用单行错误隔离模式装载外部表,这样可以把有问题的行过滤到一个单独的错误表而继续装载正确格式的行。对于一次装载操作,管理员可以指定一个错误阈值以控制GP在碰到多少不正确的行中止装载操作。

 

通过结合外部表以及GP数据库的并行文件服务器(gpfdist),管理员可以在他们的GP数据库系统上达到最大的并行度和装载带宽。

 

 

posted @ 2022-08-21 09:12  小王同学学编程  阅读(138)  评论(0)    收藏  举报
levels of contents