随笔分类 -  工具

摘要:BQSR vs. VQSR BQSR (Base Quality Score Recalibration)表示碱基质量值重校正。简言之,这是一个检测系统性错误的数据预处理步骤,用于检查测序仪估计每个碱基检测的准确性。 主要考虑了碱基在reads中的位置、上下文环境和原始质量值这三个因素,首先计算出原 阅读全文
posted @ 2022-05-24 21:29 生物信息与育种 阅读(1458) 评论(0) 推荐(0)
摘要:最近调研,总结了一些公司推出的基因组计算加速产品和方案。简单罗列下几个平台,主要针对GATK流程加速。 腾讯云:双螺旋 2017年发布,一体化的数据管理PaaS平台,可进行传、存、算、管等工作。 加速原理:FPGA极光异构系统。 30x WGS运行时间:2.8h。 http://www.baiema 阅读全文
posted @ 2022-05-19 23:00 生物信息与育种 阅读(1200) 评论(1) 推荐(0)
摘要:1. 简介 Web Scraper是Chrome/Firefox浏览器插件,跨平台使用。 优点:使用简单,无需编程,鼠标点点就可;轻量快速爬取。 缺点:小数据量;不能爬图片;不能中止;整体较慢(网速影响可能不稳定);爬取结果乱序。 2. 基础 chrome应用商店安装插件需要fanqiang,但凡用 阅读全文
posted @ 2022-04-05 22:41 生物信息与育种 阅读(395) 评论(1) 推荐(0)
摘要:在对动植物杂交种(或F1子代)的基因组和转录组的关联研究中,要回答这么一个问题:基因组变异到底与基因表达有什么关系? 这个问题很难,因为涉及影响基因表达调控的因素可太多了!多少科研人员围绕着这个问题研究毕生。 但不可避免的要做等位基因特异性表达(allele-specific expression, 阅读全文
posted @ 2022-03-11 22:24 生物信息与育种 阅读(5656) 评论(2) 推荐(2)
摘要:MP作为国内植物领域神刊,发展非常之快。开年之际,国人就已发表好几项卓越成果。这里摘取几项跟分子育种相关的研究,涉及工具、方法和数据库等资源。 Mol Plant | 华中农大杨庆勇团队发布油菜群体变异数据库,架起基因型与表型的桥梁、助力油菜分子育种 BnVIR: bridging the geno 阅读全文
posted @ 2022-03-06 23:45 生物信息与育种 阅读(313) 评论(0) 推荐(0)
摘要:软件的安装 Python版McScan(jcvi工具包):https://github.com/tanghaibao/jcvi 以前只有python2,现在已有python3版本,建议用py3。安装可用pip: pip install jcvi ##或开发版 pip install git+git: 阅读全文
posted @ 2021-10-23 21:34 生物信息与育种 阅读(4007) 评论(0) 推荐(0)
摘要:1. 矩阵相关性计算方法 base::cor/cor.test R基础函数cor或cor.test都可计算相关性系数,但cor可直接计算矩阵的相关性,而cor.test不可。 两者计算非矩阵时,cor仅得到相关系数,而cor.test还能得到pvalue。 library(ggplot2) cor( 阅读全文
posted @ 2021-10-15 23:47 生物信息与育种 阅读(6431) 评论(1) 推荐(0)
摘要:问题一:各区域注释之和大于变异总数? snpEff的结果很简单,但常常遇到如下问题。 我的SNP总数: 但是,注释的exon、intron和intergenic之和2,278,570就已经大于了总SNP数。 我大概能知道是什么原因。一个snp会落在多个基因上,所以既有可能落在exon,又有可能落在i 阅读全文
posted @ 2021-08-19 00:06 生物信息与育种 阅读(858) 评论(2) 推荐(0)
摘要:假设我要从NCBI中下载全部水稻的mRNA序列,如何实施? 找序列 第一步,肯定是找到相关序列。 我从ncbi taxonomy进入,搜索oryza。因为要搜索mRNA核酸序列,从此选择nucleotide,点击Go: 注意,如果你真正想要的是哪些序列。比如,稻属中可能野生稻之类的并非你想要的。这时 阅读全文
posted @ 2021-08-06 00:02 生物信息与育种 阅读(1483) 评论(0) 推荐(0)
摘要:问题 一直以来用Eigensoft的smartpca来做群体遗传的PCA分析很顺畅,结果也比较靠谱。 但今天报错如下: $ ~/miniconda3/bin/smartpca -p smartpca.par parameter file: smartpca.par ### THE INPUT PAR 阅读全文
posted @ 2021-07-21 14:43 生物信息与育种 阅读(736) 评论(0) 推荐(0)
摘要:iTOL基本用法已经会了,之前记录过一点:系统发育(进化)树绘制小结。最近重用,调图时又发现了些细节,记录下备忘。 1. 注册 不注册也可用,但注册登录可保存树在itol网站上。 2. 去枝长 进化树能展示枝长是最好的,能用来判断材料和群体间的特殊性。但现在大部分文章中的进化树都是去掉了枝长的,也可 阅读全文
posted @ 2021-07-18 23:56 生物信息与育种 阅读(7800) 评论(0) 推荐(0)
摘要:问题 原问题来自:How to calculate overlapping genes between two genome annotation versions? 其实可分为两个问题: 一是我组装了一个新的基因组,做了多个注释版本,如何比较它们的feature?比如gene 二是我组装了一个新的 阅读全文
posted @ 2021-05-28 18:55 生物信息与育种 阅读(782) 评论(0) 推荐(0)
摘要:基因组长度 利用seqkit统计长度 seqkit stat test.fa 结果如下: file format type num_seqs sum_len min_len avg_len max_len test.fa FASTA DNA 149 396,098,845 10,246 2,658, 阅读全文
posted @ 2021-05-28 14:13 生物信息与育种 阅读(4127) 评论(0) 推荐(0)
摘要:1. FastqCount简介 快速实用小工具:FastqCount https://github.com/zhimenggan/FastqCount 统计指标包括: Total Reads Total Bases N Bases Q20 Q30 GC 2. 使用 压缩文件可搭配pigz使用更香。 阅读全文
posted @ 2021-05-26 21:00 生物信息与育种 阅读(1987) 评论(0) 推荐(0)
摘要:记录下braker2的使用要点,以备忘记。 流程使用 braker2有很多流程,根据你的数据:组装的基因组、转录组、蛋白(同源,包括近缘或远缘)选择不同流程,官网有说明: https://github.com/Gaius-Augustus/BRAKER 现在的动植物组装,大多数都含有以上三类数据吧, 阅读全文
posted @ 2021-05-24 21:28 生物信息与育种 阅读(2883) 评论(1) 推荐(0)
摘要:samtools用conda安装后,总是出现共享库缺失的报错。即便你刚安装samtools时可以用,但后面在同一环境中安装其他相关软件,有可能产生了冲突,导致库替换,因而报错。 避免这种情况,可能最好是给samtools单独一个环境。但我不喜欢这样,我的习惯是一般做一件事才建一个环境,不然环境太多了 阅读全文
posted @ 2021-05-13 23:31 生物信息与育种 阅读(3528) 评论(0) 推荐(0)
摘要:需求 客户反映,完整的基因组太大打不开,要我将之按各条染色体和scaffold拆分。如何快速实现? 方法一 借助工具: $ pip install pyfaidx $ faidx -x sequences.fa 方法二 自己写脚本:split.pl #!/usr/bin/perl $f = $ARG 阅读全文
posted @ 2021-04-28 17:05 生物信息与育种 阅读(2186) 评论(0) 推荐(0)
摘要:conda是个安装软件的神器,但镜像不稳定,下载安装软件的速度有时很慢。对于几十Mb甚至上百Mb的软件往往下不动,下了半天可能失败。 找了一个叫mamba的加速神器,可以用来并行下载和安装,大大加快速度,减少失败几率。 首先,mamba本身需要先通过conda来安装: conda install - 阅读全文
posted @ 2021-04-27 23:45 生物信息与育种 阅读(3221) 评论(0) 推荐(0)
摘要:前言 将vcf转化为plink格式时,命令如下: plink --vcf snp.vcf --recode --allow-extra-chr --out test 出现错误: Error: Multiple instances of '_' in sample ID. If you do not 阅读全文
posted @ 2021-04-23 11:51 生物信息与育种 阅读(1853) 评论(0) 推荐(0)
摘要:基因结构预测中同源注释策略,将mRNA、cDNA、蛋白、EST等序列比对到组装的基因组中,在文章中通常使用以下比对软件: tblastn gamp exonerate blat 根据我的实测,以上软件整体都比较慢。gmap可设置多线程来提升速度。tblastn虽然也可以,但对提速没什么影响。exon 阅读全文
posted @ 2021-04-16 12:11 生物信息与育种 阅读(3717) 评论(0) 推荐(0)