如何提高工具开发和数据分析的效率?

这部分是超级干货,也能直接体现一个开发分析者的能力。

 

主要分为两部分:

1. 面对新问题时,如何高效的分析和开发?

2. 面对相似的问题时,如何最快时间的利用之前的开发经验?

 

因为现在我主要用shell和R来处理测序数据,所以本文仅局限于shell和R代码的开发和管理。

因为最终结果必然以图表呈现,所以本文的另一大部分就是绘图代码的开发和保存。

 

效率的定义:

现在给你一批GWAS的原始数据(或RNA-seq、scRNA-seq),你多久能给我出结果、出图?给你第二批,你又要多久?

你是否知道如何结果的最佳呈现形式?

 

核心:

  • GitHub的利用
  • R包的开发和管理
  • jupyter和Rstudio server是神器
  • 高效的归纳总结系统
  • Rmarkdown和jupyter notebook到底选哪一个?各有利弊

 

如何让别人的开发为我所用?站在巨人的肩膀上

  • 多看是必须的
  • 总结,这个研究到底解决了什么问题?填补了哪个gap?
  • 归纳,这些分析和绘图代码能不能归到一个R包里,汇总为一个manual,随时调用

 

数据分析:

  • 数据特性的总结和QC
  • 尝试多种工具
  • 评价、比较不同工具的结果
  • 挑选合适的工具,解读结果
  • 根据实际问题开发创新

 

单批数据的分析是容易的,但是数据的整合才是最重要的。

两大类整合

  • 不同发育阶段的整合
  • case和control的整合

 

待续~

posted @ 2019-07-09 21:38 Life·Intelligence 阅读(...) 评论(...) 编辑 收藏
TOP