文献阅读 | A new decade and new data at SoyBase, the USDA-ARS soybean genetics and genomics database
Anne V Brown, Shawn I Conners, Wei Huang, Andrew P Wilkey, David Grant, Nathan T Weeks, Steven B Cannon, Michelle A Graham, Rex T Nelson, A new decade and new data at SoyBase, the USDA-ARS soybean genetics and genomics database, Nucleic Acids Research, , gkaa1107, https://doi.org/10.1093/nar/gkaa1107
Soybase(soybase.org)数据库最早开发于1990年代,基于AceDB数据库管理系统。2000年代,该数据库被更新为基于MySQL数据库、采用PHP开发的版本。2010年,大豆的首个基因组组装被发布,接着被整合入SoyBase。首次基因组组装发布以来的十年中,SoyBase不仅添加了最初大豆基因组测序项目相关的测序数据,还添加了五个其他大豆栽培种/品种的测序数据(包括重测序和基于芯片的变异数据等)。SoyBase还维护了大豆的复合遗传图谱,其中包含超过4800个双亲QTL的定量性状基因座(QTL)信息,这些信息是根据超过三十年的科学文献整理而成的。

该数据库除了自己开发的功能外,还结合(链接)了一些使用该数据库包含数据配置的、已发表的可视化框架,如GBrowse和Pathway Tools等。
本篇文章中,数据库主要加入以下内容:
- 新参考基因组数据
- 代谢途径和组学数据
- 大豆系谱数据
- 视频教程的发布(https://soybase.org/tutorials)
此外,数据库还增加了下述功能:
GCViT多样性浏览器
作者创建了基因型比较可视化工具(GCViT版本1.0)以显示和探索大豆种质之间的自然变异。GCViT允许用户从项目列表中选择要显示的种质。GCViT根据用户指定的参考材料显示所有染色体上的变异数据。对SNP数据进行装仓并可以通过几种方式呈现:热图,单倍型块或直方图。然后可以显示参考文献与每个比较文献之间的差异或相似性。
该工具可用于谱系分析,数据评估和验证,或识别品系之间的基因渗入或保守的基因组区域。该工具是交互式的,允许用户打开和关闭染色体和特征,平移和拖动视图以及在有趣的基因组区域周围绘制框。

序列多样性可视化

在该功能中,可以查看来自多个研究的重测序和SNP芯片数据。由于重测序研究可以产生数百万个SNP,因此用户需要放大至2 Mb或以下才能单击单个SNP状态。轨道名称和描述中指示了获得反应性对象的适当缩放级别。

基因表达浏览器
该功能允许用户选择处理方法于组织来比较基因表达。

通过选择处理方法与组织,用户能够直观看到基因表达情况。此外,数据库还提供来自各个GEO实验的基因表达值的表格显示。利用基因表达的图形显示和表格显示,用户可以开发有关大豆基因功能的功能假设,或促进GWAS和双亲QTL候选基因的鉴定。

其他豆类物种的直系同源鉴定
The Legume Information Service(LIS,legumeinfo.org)从各种豆科植物物种(目前有17种模型和作物物种)收集遗传和基因组数据。每个大豆基因报告页面都有到豆类信息系统(LIS)基因家族预测和系统发育的链接。SoyBase基因模型报告页面链接到LIS上的系统发育查看器,使用户能够发现其他豆类物种的直系同源基因。

泛基因组查看器
该功能挂载在https://soybase.org/gcv,目前显示SoyBase中保存的七个程序集和注释。
GCV是一种通用工具,用于显示来自选定分类群的同源区域的直系同源基因集。GCV当前拥有两个泛基因组集:一个代表SoyBase中保存的七个组装和注释,第二个代表Liu et al.发表的26个大豆组装。
它可以配置用于一组物种(例如,豆类或草),也可以配置用于属(Glycine,正如SoyBase所做的)。在典型用法中,输入基因名称作为查询。还支持按染色体区域搜索。这用于从该基因来源的 accessions 中检索一个基因组区域。然后将该区域用于从其他 accessions 中识别相应区域。然后将这些区域对齐并显示,重点放在这些区域的基因内容上。倒位、插入和删除均已被处理并显示。

七个大豆组装(Lee, Wm82 (v1, v2 & v4), Zhonghuang 13 and G. soja W05 and PI 483463)基于基因的同构视图。每条水平线是一个组装中的一个区域。彩色三角形代表基因(具有方向),颜色由不同的基因家族决定,因此,相邻的红色三角形代表串联重复的基因。较粗的线段表示更大的基因组距离。顶部的7行来自2号染色体,底部的7行来自10号染色体上的同源区域。在10号染色体上的三个集合中,倒位(对角线)很明显。

浙公网安备 33010602011771号