会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
橙子牛奶糖
简介:陈文燕,本科暨南大学,中科院博士。 欢迎关注微信公众号“bio生物信息”,进群与众多生信同行一起讨论学术问题。私信不回,有问题请在文章下面评论。
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
39
40
41
42
43
44
45
46
47
···
53
下一页
2018年2月5日
计算基因上外显子碱基覆盖度(exon coverage depth):Samtool工具使用
摘要: 假设想要计算ATP1A4基因上的外显子碱基覆盖度 首先查询这个基因所有exon的起始和终止位置,查询链接:http://grch37.ensembl.org/Homo_sapiens/Transcript/Exons?db=core;g=ENSG00000132681;r=1:160121360-1
阅读全文
posted @ 2018-02-05 15:58 橙子牛奶糖
阅读(1361)
评论(1)
推荐(0)
2018年2月3日
Linux:在文件最后一列添加递增数(awk,cat函数)
摘要: 假设有文件file1.txt: aa eeeee bb eeeee cc eeeee dd eeeee 先修改为: aa eeeee 1 bb eeeee 2 cc eeeee3 dd eeeee 4 则只需要写上命令:
阅读全文
posted @ 2018-02-03 20:34 橙子牛奶糖
阅读(4628)
评论(0)
推荐(0)
Linux批量修改(删除)文件名某些字符(rename命令)
摘要: 假设在路径C:/下存在多个类似以下的文件名 file_nall_abc1.txt file_nall_abc2.txt file_nall_abc3.txt file_nall_abc4.txt file_nall_abc5.txt file_nall_abc6.txt file_nall_abc7
阅读全文
posted @ 2018-02-03 14:19 橙子牛奶糖
阅读(3938)
评论(0)
推荐(1)
2018年2月2日
R语言:提取路径中的文件名字符串(basename函数)
摘要: 假设存在路径C:/coverage/Homo_sapiens.sort.add_exon1_coverage.txt,欲提取Homo_sapiens.sort.add_exon1_coverage.txt文件名,则用到basename函数和start、stop参数,命令行如下所示: 效果如下图所示:
阅读全文
posted @ 2018-02-02 20:31 橙子牛奶糖
阅读(6889)
评论(3)
推荐(0)
R语言修改标题、坐标轴刻度、坐标轴名称的大小(cex.axis、cex.lab、cex.main函数)
摘要: 修改标题、坐标轴刻度、坐标轴名称的大小,用到了cex.axis、cex.lab、cex.main函数,其中,cex.axis表示修改坐标轴刻度字体大小,cex.lab表示修改坐标轴名称字体大小,cex.main表示修改标题字体大小 如代码所示: 画出来的图像如下:
阅读全文
posted @ 2018-02-02 15:39 橙子牛奶糖
阅读(66297)
评论(9)
推荐(0)
2018年1月21日
斯坦福大学公开课机器学习:machine learning system design | data for machine learning(数据量很大时,学习算法表现比较好的原理)
摘要: 下图为四种不同算法应用在不同大小数据量时的表现,可以看出,随着数据量的增大,算法的表现趋于接近。即不管多么糟糕的算法,数据量非常大的时候,算法表现也可以很好。 数据量很大时,学习算法表现比较好的原理: 使用比较大的训练集(意味着不可能过拟合),此时方差会比较低;此时,如果在逻辑回归或者线性回归模型中
阅读全文
posted @ 2018-01-21 23:13 橙子牛奶糖
阅读(405)
评论(0)
推荐(0)
斯坦福大学公开课机器学习:machine learning system design | trading off precision and recall(F score公式的提出:学习算法中如何平衡(取舍)查准率和召回率的数值)
摘要: 一般来说,召回率和查准率的关系如下:1、如果需要很高的置信度的话,查准率会很高,相应的召回率很低;2、如果需要避免假阴性的话,召回率会很高,查准率会很低。下图右边显示的是召回率和查准率在一个学习算法中的关系。值得注意的是,没有一个学习算法是能同时保证高查准率和召回率的,要高查准率还是高召回率,取决于
阅读全文
posted @ 2018-01-21 20:51 橙子牛奶糖
阅读(359)
评论(0)
推荐(0)
斯坦福大学公开课机器学习:machine learning system design | error metrics for skewed classes(偏斜类问题的定义以及针对偏斜类问题的评估度量值:查准率(precision)和召回率(recall))
摘要: 上篇文章提到了误差分析以及设定误差度量值的重要性。那就是设定某个实数来评估学习算法并衡量它的表现。有了算法的评估和误差度量值,有一件重要的事情要注意,就是使用一个合适的误差度量值,有时会对学习算法造成非常微妙的影响。这类问题就是偏斜类(skewed classes)的问题。什么意思呢。以癌症分类为例
阅读全文
posted @ 2018-01-21 17:43 橙子牛奶糖
阅读(696)
评论(0)
推荐(0)
斯坦福大学公开课机器学习: machine learning system design | error analysis(误差分析:检验算法是否有高偏差和高方差)
摘要: 误差分析可以更系统地做出决定。如果你准备研究机器学习的东西或者构造机器学习应用程序,最好的实践方法不是建立一个非常复杂的系统、拥有多么复杂的变量,而是构建一个简单的算法。这样你可以很快地实现它。研究机器学习的问题时,会花一天的时间试图很快的把结果搞出来。即便效果不好,运行得不完美,通过交叉验证来检验
阅读全文
posted @ 2018-01-21 15:19 橙子牛奶糖
阅读(342)
评论(0)
推荐(0)
2018年1月17日
斯坦福大学公开课机器学习: machine learning system design | prioritizing what to work on : spam classification example(设计复杂机器学习系统的主要问题及构建复杂的机器学习系统的建议)
摘要: 当我们在进行机器学习时着重要考虑什么问题。以垃圾邮件分类为例子。假如你想建立一个垃圾邮件分类器,看这些垃圾邮件与非垃圾邮件的例子。左边这封邮件想向你推销东西。注意这封垃圾邮件有意的拼错一些单词,就像Med1cine中有一个1,m0rtgage里有个0。右边的邮件显然不是一个垃圾邮件。 假设我们已经有
阅读全文
posted @ 2018-01-17 23:07 橙子牛奶糖
阅读(420)
评论(2)
推荐(0)
上一页
1
···
39
40
41
42
43
44
45
46
47
···
53
下一页
公告