10 2020 档案

摘要:这个发表于公元 $1748$ 年的数学公式,将三角函数与复指数函数巧妙地关联了起来,它长成下面这个样子 $$e^{ix} = \cos x + i \sin x$$ 其中,$e$ 为自然常数,$i$ 为虚数,$x$ 是角度(使用弧度表示,单位 $rad$)。当参数 $x$ 等于 $\pi$ 的时候, 阅读全文
posted @ 2020-10-31 14:03 _yanghh 阅读(22403) 评论(0) 推荐(1)
摘要:阅读本篇内容之前可先阅读博客:三角函数定义和欧拉公式。 拉格朗日等数学家发现某些周期函数可以由三角函数的和来表示,比如下图中,黑色的斜线是周期为 $2\pi$ 的函数,而红色的曲线是三角函数 之和,可以看出两者确实近似: 另一位数学家傅里叶猜测任意周期函数都可以写成三角函数之和。 首先先证明一个结论 阅读全文
posted @ 2020-10-31 11:32 _yanghh 阅读(6500) 评论(0) 推荐(2)
摘要:利用单位圆来定义任意角的三角函数,如下图所示,$\alpha$ 是一个任意角,它的终边与单位圆交于点 $P(x,y)$。 那么角 $\alpha$ 的正弦定义为 $$\sin \alpha = y$$ 角 $\alpha$ 的余弦定义为 $$\cos \alpha = x$$ 角 $\alpha$ 阅读全文
posted @ 2020-10-31 10:09 _yanghh 阅读(5731) 评论(0) 推荐(0)
摘要:通常以关注的类为正类,其他类为负类,分类器在数据集上的预测或者正确或者不正确,我们有 $4$ 种情况: 1)TP:True Positive, 把正类预测为正类; 2)FP:False Positive,把负类预测为正类; 3)TN:True Negative, 把负类预测为负类; 4)FN:Fal 阅读全文
posted @ 2020-10-29 12:32 _yanghh 阅读(372) 评论(0) 推荐(0)
摘要:有一些物理现象,如理学中的爆炸、冲击、碰撞,电学中的放电,闪电雷击等,它们都有共同的特点: 1)持续时间短 2)取值极大 可以用脉冲函数极限定义冲激信号,形式如下: $$\delta(t) = \lim_{\tau \rightarrow 0}\frac{1}{\tau}\left [ u(t + 阅读全文
posted @ 2020-10-28 15:13 _yanghh 阅读(5034) 评论(0) 推荐(0)
摘要:从数学上讲,卷积就是一种运算。定义函数 $f,g$ 的卷积 $(f * g)(t)$ 如下 1. 连续形式: $$(f*g)(t) = \int_{-\infty}^{+\infty}f(\tau)g(t - \tau)d\tau$$ 那这个怎么理解呢? 函数 $g(t)$ 可以理解为冲击响应,即一 阅读全文
posted @ 2020-10-28 09:40 _yanghh 阅读(3055) 评论(0) 推荐(1)
摘要:采样:模拟信号是连续的,这就意味着一段时间 $T$ 的模拟波由无数个点组成,如果要用计算机表示就要把这无数个点存储下来,这显然是 不可能的而且是没有必要的。那么我们可以用隔一段记录一个点的方式存储这段模拟波,存储下来的点就是对这段模拟波的采样。 采样规则:根据香农(奈奎斯特)定理,采样信号(离散的) 阅读全文
posted @ 2020-10-26 16:38 _yanghh 阅读(655) 评论(0) 推荐(0)
摘要:计算机视觉(Computer Vision)研究如何让计算机可以像人类一样去理解图片、视频等多媒体资源内容。例如用摄影机和计算机代替人眼对目标进行识别、 跟踪和测量等,并进一步处理成更适合人眼观察或进行仪器检测的图像。 图像处理和计算机视觉 图像处理:对输入的图像做某种变换,输出仍然是图像,基本不涉 阅读全文
posted @ 2020-10-22 21:05 _yanghh 阅读(7261) 评论(0) 推荐(0)
摘要:支持向量机是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。 模型包括以下几类: 当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机; 当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机; 当训练样 阅读全文
posted @ 2020-10-21 20:49 _yanghh 阅读(457) 评论(0) 推荐(0)
摘要:Apriori 算法需要多次扫描数据,I/O是很大的瓶颈。为了解决这个问题,FP Growth 算法采用了一些技巧,无论多少数据,只需要扫描两次数据集即可。 FP Tree数据结构 为了减少 I/O 次数,FP Tree 算法引入了一些数据结构来临时存储数据。这个数据结构包括三部分,如下图所示: 1 阅读全文
posted @ 2020-10-20 13:14 _yanghh 阅读(749) 评论(0) 推荐(0)
摘要:Apriori 算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策。 频繁项集的评估标准 什么样的数据才是频繁项集呢?一起出现次数多的数据集就是频繁项集吗!的确,这也没有说错,但是有两个问题: 1)当数据量非常大的时候,我们没法直接 阅读全文
posted @ 2020-10-20 08:17 _yanghh 阅读(517) 评论(0) 推荐(0)
摘要:阅读本篇之前,可先阅读一下主成分分析。 对于 PCA 寻找的基向量满足:样本在该基向量方向投影后的坐标方差最大。对于 LDA 则换了一个标准,不选择投影坐标方差最大的方向, 而选择能使样本点分类效果最好的方向,即:不同类别的样本点越分开越好,同类的越聚集越好。 这也就意味着,LDA 算法必须事先就知 阅读全文
posted @ 2020-10-19 07:49 _yanghh 阅读(607) 评论(0) 推荐(0)
摘要:$\bullet$ 特征值分解。 特征值分解是针对方阵的,而且这个方阵必须能够相似对角化(如果不了解可以先去阅读一下矩阵相似的博客),那么就有 $$P^{-1}AP = \Lambda \; \Rightarrow \; A = P\Lambda P^{-1}$$ 其中 $P$ 由特征向量构成,$\ 阅读全文
posted @ 2020-10-17 16:33 _yanghh 阅读(670) 评论(0) 推荐(0)
摘要:支持向量机是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。 模型包括以下几类: 当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机; 当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机; 当训练样 阅读全文
posted @ 2020-10-17 07:51 _yanghh 阅读(1049) 评论(0) 推荐(0)
摘要:$\bullet$ 二维形式的柯西不等式: $$(a^{2} + b^{2})(c^{2} + d^{2}) \geq (ac + bd)^{2}$$ 当且仅当 $ad = bc$ 时等号成立。 $\bullet$ 三维形式的柯西不等式: $$(a_{1}^{2} + a_{2}^{2} + a_{ 阅读全文
posted @ 2020-10-14 10:46 _yanghh 阅读(18339) 评论(0) 推荐(0)
摘要:协方差用于衡量两个变量的总体误差或协同程度。两个总体 $X,Y$ 之间的协方差定义为 $$Cov(X,Y) = E\left [ (X - E(X))(Y - E(Y)) \right ]$$ 将这个式子展开就到计算总体协方差的常用公式: $$Cov(X,Y) = E\left [ (X - E(X 阅读全文
posted @ 2020-10-13 09:13 _yanghh 阅读(5879) 评论(0) 推荐(0)
摘要:概率论中方差用来度量随机变量和其数学期望之间的偏离程度,也称为总体方差。 设总体为 $X$,$X_{1},X_{2},\cdots,X_{n}$ 为来自总体的样本,样本容量为 $n$,总体的数学期望和方差分别为 $\mu,\sigma^{2}$,样本均值为 $\bar{X} = \frac{1}{n 阅读全文
posted @ 2020-10-13 08:53 _yanghh 阅读(4113) 评论(0) 推荐(0)
摘要:支持向量机是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。 模型包括以下几类: 当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机; 当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机; 当训练样 阅读全文
posted @ 2020-10-13 08:12 _yanghh 阅读(215) 评论(0) 推荐(0)
摘要:降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。 在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。 PCA(Principal Com 阅读全文
posted @ 2020-10-10 16:27 _yanghh 阅读(529) 评论(0) 推荐(0)
摘要:问题:数据总量爆炸式增加,如何从中提取真正有价值的信息,产生了新的领域(DM)。几个名词: 1)Data Mining:数据挖掘 2)Knowledge Discovery:知识发现 3)Machine Learning:机器学习(机器学习是数据挖掘的一个重要工具) 4)Knowledge Disc 阅读全文
posted @ 2020-10-10 09:46 _yanghh 阅读(1628) 评论(0) 推荐(0)
摘要:支持向量机是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。 模型包括以下几类: 当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机; 当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机; 当训练样 阅读全文
posted @ 2020-10-09 14:19 _yanghh 阅读(664) 评论(0) 推荐(0)
摘要:人工神经网络是一个数学模型,旨在模拟人脑的神经系统对复杂信息的处理机制,其网络结构是对人脑神经元网络的抽象,两者有很多相似之处。 当然 ANN 还远没有达到模拟人脑的地步,但其效果也让人眼前一亮。 1. 人工神经元结构 人工神经元是一个多输入单输出的信息处理单元,是对生物神经元的建模。建模方式可以有 阅读全文
posted @ 2020-10-07 08:19 _yanghh 阅读(3490) 评论(0) 推荐(1)
摘要:$k-means$ 算法是无监督的聚类算法。 $k-means$ 算法的思想:对于给定的 $n$ 个样本,按照样本之间的距离大小,将样本集划分为 $k$ 个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。 假设簇划分为 $(C_{1}, C_{2},..., C_{k})$,$|C_{i} 阅读全文
posted @ 2020-10-07 08:03 _yanghh 阅读(236) 评论(0) 推荐(1)
摘要:Matplotlib 是 Python 的绘图库。 它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案。 官方文档:https://matplotlib.org/api/。 1. 一个基本的例子 import matplotlib.pyplot as plt import n 阅读全文
posted @ 2020-10-06 21:11 _yanghh 阅读(245) 评论(0) 推荐(1)
摘要:NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 官方文档地址:https://numpy.org/doc/stable/index.html。 下面简述一些 Numpy 库常用方法和属性。 阅读全文
posted @ 2020-10-05 16:36 _yanghh 阅读(485) 评论(0) 推荐(0)
摘要:在机器学习和统计领域,线性回归模型是最简单的模型之一。 在现实生活中,往往需要分析若干变量之间的关系,如碳排放量与气候变暖之间的关系、某一商品广告投入量与该商品销售量之间的关系等。 回归分析:分析不同变量之间存在关系的研究。 回归模型:刻画不同变量之间关系的模型。如果这个模型是线性的,则称为线性回归 阅读全文
posted @ 2020-10-05 07:31 _yanghh 阅读(1460) 评论(1) 推荐(1)
摘要:设两个向量 $x,y$ 分别为 $$x = (x_{1},x_{2},\cdots, x_{m})^{T}$$ $$y = (y_{1},y_{2},\cdots, y_{n})^{T}$$ 虽然是多变量对多变量求偏导,但最终都是归结于一个单变量对另一个单变量求偏导,只是函数和自变量都写成了向量形式 阅读全文
posted @ 2020-10-01 16:58 _yanghh 阅读(28768) 评论(5) 推荐(9)