随笔分类 -  数理统计

概率论与数理统计学的学习笔记以及应用实践
摘要:注:PCA是最常用的一种降维方法,降维后得到的每一个主成分是各个特征的线性组合。PCA也被称为“没有截距的回归模型”[1],因为其简单和直观,应用非常广泛。 本文相关的代码和数据:https://github.com/OnlyBelter/jupyter-note/blob/master/machi 阅读全文
posted @ 2021-12-30 16:45 昕-2008 阅读(622) 评论(0) 推荐(0)
摘要:注:终于写到最激动人心的部分了。假设检验应该是统计学中应用最广泛的数据分析方法,其中像"P值"、"t检验"、"F检验"这些如雷贯耳的名词都来自假设检验这一部分。我自己刚开进入生物信息学领域,用的最多的就是"利用t检验来判断某个基因在实验组和对照组中表达量的差异是否显著"。此外,对"P值"真正含义的探 阅读全文
posted @ 2018-08-18 18:17 昕-2008 阅读(3753) 评论(0) 推荐(0)
摘要:注:区间估计是除点估计之外的另一类参数估计。相对于点估计只给出一个具体的数值,区间估计能够给出一个估计的范围。 0. 点估计 vs 区间估计 根据具体样本观察值,点估计提供了一个明确的数值。但是这种判断的把握有多大,点估计本身并没有给出。区间估计就是为了弥补点估计的这种不足而提出来的。 相同点: 都 阅读全文
posted @ 2018-07-16 22:47 昕-2008 阅读(10287) 评论(0) 推荐(0)
摘要:注:点估计是参数估计中的一种。点估计常用的方法有两种:矩估计和最大似然估计。之所以要做估计,最本质的问题是我们能获得的信息量(样本的数量)有限,因此只能在有限的信息中,用合理的方法、在可接受的精度或置信度下做近似计算,以便对总体有一个大概的认识,也就是将某种在有限样本中获得的规律,推广到更大的样本量 阅读全文
posted @ 2018-04-07 13:09 昕-2008 阅读(4477) 评论(0) 推荐(1)
摘要:注:在统计学的应用中,参数估计和假设检验是最重要的两个方面。参数估计是利用样本的信息,对总体的未知参数做估计。是典型的“以偏概全”。 0. 参数及参数的估计 参数是总体分布中的参数,反映的是总体某方面特征的量。例如:合格率,均值,方差,中位数等。参数估计问题是利用从总体抽样得到的信息来估计总体的某些 阅读全文
posted @ 2018-02-02 22:05 昕-2008 阅读(6628) 评论(0) 推荐(0)
摘要:注:这是一个横跨数年的任务,标题也可以叫做“从To Do List上划掉学习统计学”。在几年前为p值而苦恼的时候,还不知道Python是什么;后来接触过Python,就喜欢上了这门语言。统计作为数据科学的基础,想要从事这方面的工作,这始终是一个绕不过去的槛。 其实从中学就开始学习统计学了,最早的写" 阅读全文
posted @ 2018-01-22 19:39 昕-2008 阅读(13357) 评论(0) 推荐(2)
摘要:注:抽样分布就是统计量的分布,其特点是不包含未知参数且尽可能多的概括了样本信息。除了常见的正态分布之外,还有卡方分布、t分布和F分布为最常见的描述抽样分布的分布函数。这几个分布函数在数理统计中也非常有名。我们常说的卡方检验、t检验和F检验就跟这三个分布有关。下面分别从定义、性质、函数图像和分位数等方 阅读全文
posted @ 2018-01-21 18:29 昕-2008 阅读(20469) 评论(1) 推荐(4)
摘要:注:概率论方面就暂时告一段落,终于可以说说统计方面的事情了。如果说概率论中主要是研究随机变量的方法学和理论模型,那么统计学就是利用概率论这一强大的工具来研究具有随机性的现象(结果的不确定性)。而研究这些随机现象最重要的方法就是,大量重复试验进而找到其统计规律性。一般步骤为:重复试验(例如反复测量,多 阅读全文
posted @ 2017-12-13 20:51 昕-2008 阅读(4544) 评论(0) 推荐(2)
摘要:注:这两个定理可以说是概率论中最重要的两个定理。也是由于中心极限定理的存在,使得正态分布从其他众多分布中脱颖而出,成为应用最为广泛的分布。这两个定理在概率论的历史上非常重要,因此对于它们的研究也横跨了几个世纪(始于18世纪初),众多耳熟能详的大数学家都对这两个定理有自己的贡献。因此,这两个定理都不是 阅读全文
posted @ 2017-11-17 21:07 昕-2008 阅读(30928) 评论(0) 推荐(5)
摘要:注:如果说一个随机变量的分布函数(累计分布或概率密度分布)是对该随机变量最完整,最具体的描述,那么随机变量的数字特征就是对该随机变量的部分特征的描述。分布函数就像是一个人的全身像,而数字特征就像是一个人的局部特写。 0. 为什么要研究随机变量的数字特征 很多情况下,可能由于数据不完整或是采集数据的代 阅读全文
posted @ 2017-10-05 13:56 昕-2008 阅读(8724) 评论(0) 推荐(1)
摘要:注:上一小节总结了离散型随机变量,这个小节总结连续型随机变量。离散型随机变量的可能取值只有有限多个或是无限可数的(可以与自然数一一对应),连续型随机变量的可能取值则是一段连续的区域或是整个实数轴,是不可数的。最常见的一维连续型随机变量有三种:均匀分布,指数分布和正态分布。下面还是主要从概述、定义、主 阅读全文
posted @ 2017-09-22 17:04 昕-2008 阅读(7235) 评论(0) 推荐(2)
摘要:注:上一小节对随机变量做了一个概述,这一节主要记录一维离散型随机变量以及关于它们的一些性质。对于概率论与数理统计方面的计算及可视化,主要的Python包有scipy, numpy和matplotlib等。 以下所有Python代码示例,均默认已经导入上面的这几个包,导入代码如下: 0. Python 阅读全文
posted @ 2017-08-30 20:31 昕-2008 阅读(7834) 评论(0) 推荐(0)
摘要:注:对随机变量及其取值规律的研究是概率论的核心内容。在上一个小结中,总结了随机变量的概念以及随机变量与事件的联系。这个小结会更加深入的讨论随机变量。 随机变量与事件 随机变量的本质是一种函数(映射关系),在古典概率模型中,“事件和事件的概率”是核心概念;但是在现代概率论中,“随机变量及其取值规律”是 阅读全文
posted @ 2017-08-17 22:08 昕-2008 阅读(8131) 评论(2) 推荐(1)
摘要:注:其实从中学就开始学习统计学了,最早的写"正"字唱票(相当于寻找众数),就是一种统计分析的过程。还有画直方图,求平均值,找中位数等。最近专门抽出一段时间对自己学习过的《概率论与数理统计》做一个小结。主要包括以下几个方面: 基本概念; Python的实现; 一些比较经典的例子。 以下主要根据浙江大学 阅读全文
posted @ 2017-07-10 22:06 昕-2008 阅读(12029) 评论(0) 推荐(1)
摘要:注:很久以前就知道这两个公式,但一直仅限于了解。直到最近学习edx上的课程,才对这两个公式有了新的理解,记录于此。 最近(2022年7月@HK)学习图宾根大学 Prof. Dr. Philipp Hennig 的概率机器学习课程(https://uni-tuebingen.de/en/180804) 阅读全文
posted @ 2016-09-30 15:01 昕-2008 阅读(49587) 评论(4) 推荐(9)