会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
1直在路上1
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
下一页
2018年11月8日
泰坦尼克号预测生还案例
摘要: 一、背景 Titanic: Machine Learning from Disaster-https://www.kaggle.com/c/titanic/data,必须先登录kaggle 就是那个大家都熟悉的『Jack and Rose』的故事,豪华游艇倒了,大家都惊恐逃生,可是救生艇的数量有限,
阅读全文
posted @ 2018-11-08 16:26 河水青山1
阅读(1594)
评论(0)
推荐(0)
2018年11月1日
威斯康星乳腺癌良性预测
摘要: 一、获取数据 原始数据以逗号分隔: 各个列的属性(包括乳房肿块细针抽吸活检图像的数字化的多项测量值,这些值代表出现在数字化图像中的细胞核的特征): 1.Sample Code Number id number 2.Clump Thickness 1 - 10 肿块厚度 3.Uniformity Of
阅读全文
posted @ 2018-11-01 18:05 河水青山1
阅读(1962)
评论(0)
推荐(1)
2018年10月12日
NLTK的安装
摘要: 一、NLTK:Natural Language Toolkit(自然语言工具包) 下载:http://www.nltk.org 二、使用 三、安装成功,导入报错 已经成功安装nltk,但是import nltk时报错:No module named '_sqlite3' 背景:linux系统自带的p
阅读全文
posted @ 2018-10-12 18:22 河水青山1
阅读(313)
评论(0)
推荐(0)
2018年10月8日
为SNP增加种族人群频率
摘要: 一、Ensemble:http://www.ensembl.info/2015/06/18/1000-genomes-phase-3-frequencies-genotypes-and-ld-data/ 二、安装API
阅读全文
posted @ 2018-10-08 17:03 河水青山1
阅读(236)
评论(0)
推荐(0)
2018年9月11日
PCA
摘要: 一、PCA讲解 首先本文参考:http://blog.codinglabs.org/articles/pca-tutorial.html,感觉写的很好,非常好理解,为了帮助自己加深印象,自己拿来欣赏一下PCA思想 PCA(Principal Component Analysis)将n维特征映射到 k
阅读全文
posted @ 2018-09-11 16:33 河水青山1
阅读(496)
评论(0)
推荐(0)
2018年9月6日
高斯混合模型
摘要: 一、什么是高斯混合模型(GMM) 高斯混合模型(Gaussian Mixed Model)指的是多个高斯分布函数的线性组合,通常用于解决同一集合下的数据包含多个不同的分布的情况,如解决分类情况 如下图,明显分成两个聚类。这两个聚类中的点分别通过两个不同的正态分布随机生成而来。如果只用一个的二维高斯分
阅读全文
posted @ 2018-09-06 18:24 河水青山1
阅读(3173)
评论(0)
推荐(0)
2018年8月16日
生信软件安装
摘要: 二、比对 1)Blat:全称 The BLAST-Like Alignment Tool,可以称为"类BLAST 比对工具",对于DNA序列,BLAT是用来设计寻找95%及以上相似至少40个碱基的序列。对于蛋白序列,BLAT是用来设计寻找80%及以上相似至少20个氨基酸的序列。 Blat 的主要特点
阅读全文
posted @ 2018-08-16 10:45 河水青山1
阅读(2208)
评论(0)
推荐(0)
2018年8月2日
数学中的各种矩阵
摘要: 一、单位矩阵 单位矩阵的结构很简单: 1. 它是"正方形"(行数与列数相同) 2. 所有沿主对角线的元素都是1,而所有其他位置的元素都是0 \begin{bmatrix}1&0&0\\0&1&0\\0&0&1\\\end{bmatrix} 二、可逆矩阵 设A是n阶矩阵,如果有n阶矩阵B,使得:\(A
阅读全文
posted @ 2018-08-02 15:31 河水青山1
阅读(4171)
评论(0)
推荐(0)
2018年8月1日
GBDT用于分类问题
摘要: 一、简介 GBDT在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩。原因大概有几个 一:效果确实挺不错。 二:既可以用于分类也可以用于回归。 三:可以筛选特征。 这三点实在是太吸引人了,导致在面试的时候大家也非常喜欢问这个算
阅读全文
posted @ 2018-08-01 16:33 河水青山1
阅读(19104)
评论(5)
推荐(0)
GBDT
摘要: 核心~结合(易少缺过)~最佳~步骤 一、决策树分类 决策树分为两大类,分类树和回归树 分类树用于分类标签值,如晴天/阴天/雾/雨、用户性别、网页是否是垃圾页面 回归树用于预测实数值,如明天的温度、用户的年龄 两者的区别: 分类树的结果不能进行加减运算,晴天+晴天没有实际意义 回归树的结果是预测一个数
阅读全文
posted @ 2018-08-01 09:52 河水青山1
阅读(1232)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
下一页
公告