随笔分类 - 数据科学的数学基础
摘要:有两种估计分位数,一种是在估计指定的分位数,另一种是估计全部的分位数,也就得到分布函数。这种估计存在的误差满足 \[ \Pr(|\overline{Y}-E[\overline{Y}]|\ge\epsilon) \le 2\exp(\dfrac{-2\epsilon^2n}{1^2}) = \del
阅读全文
摘要:蒙特卡洛积分 在工程任务中,往往会出现无法求出定积分的精确值的情况,这时就需要使用数值积分方法进行求解。 对定义在 \([a,b]\) 上的函数 \(f(x)\) 的积分 \(\int_a^bf(x)dx\) ,蒙特卡洛积分通过选取采样点 \(\{x_1,\cdots,x_n\}\) 对应的函数值进
阅读全文
摘要:基本概念 特征工程是对已经得到的数据进行数据预处理,对于单个特征,可以做单位化 (令特征向量模长为 1),归一化 (等比例缩小所有数值令最大值为 1) 等,对于多个特征,往往通过降维和特征选择来得到数据更短的向量表示,这种操作往往可以加快后续模型计算速度并得到更好的效果。 特征选择指的是从整体特征当
阅读全文
摘要:基本概念 朴素贝叶斯分类器计算一个样本属于某一类的概率(后验概率),进而比较概率大小来决定样本的分类结果。分类器需要数据集作为已知样本集,还需要这些样本的分类结果,最后对新给出的样本集进行分类。 具体来说,假设已经得到样本集 \(D=\{x_1,\cdots,x_n\}\) ,每一个 \(x_i\)
阅读全文
摘要:概率论的很多内容都在之前的笔记中详细介绍了,这里我们只给出一些需要经常用到的知识点,以及需要特别注意加深认识的部分。 Sample Spaces 样本空间记为 \(\Omega\) ,其中包含了样本 \(\omega\) ,每一个事件就是样本点的集合。事件发生的概率 probability \(\P
阅读全文

浙公网安备 33010602011771号