随笔分类 -  Machine Learning

摘要:Tacotron2 前置知识 通过时域到频域的变换,可以得到从侧面看到的 频谱 ,但是这个频谱并没有包含时域的中全部的信息,因为频谱只代表各个频率正弦波的振幅是多少,而没有提到相位。基础的正弦波$Asin(wt+\theta)$中,振幅、频率和相位缺一不可。不同相位决定了波的位置,所以对于频域分析, 阅读全文
posted @ 2018-09-10 19:25 冬色 阅读(1967) 评论(4) 推荐(0)
摘要:整个特征预测网络是一个带有注意力机制(attention)的seq2seq网络。 编码器 解码器(Encoder Decoder)结构 在原始的编码器 解码器结构中,编码器(encoder)输入一个序列或句子,然后将其压缩到一个 固定长度 的向量(向量也可以理解为一种形式的序列)中;解码器(deco 阅读全文
posted @ 2018-08-24 08:56 冬色 阅读(14506) 评论(0) 推荐(2)
摘要:数据增强(Data augmentation) 预处理(Pre processing) 初始化(Initializations) 训练中的Tricks 激活函数(Activation functions) 正则化(Regularizations) 画图洞察数据 集成学习(Ensemble) 数据增强 阅读全文
posted @ 2018-08-16 20:46 冬色 阅读(822) 评论(1) 推荐(0)
摘要:只要神经元足够,神经网络可以以任意精度逼近任意函数。为了拟合非线性函数,需要向神经网络中引入非线性变换,比如使用$sigmoid$激活函数: \[ sigmoid(x)=\frac{1}{1+e^{-x}} \] $sigmoid(x)\(可简写为\)\sigma(x)\(,该函数可以将实数压缩到开 阅读全文
posted @ 2018-08-15 13:00 冬色 阅读(22544) 评论(0) 推荐(0)
摘要:语音合成,又称文语转换(Text To Speech, TTS),是一种可以将任意输入文本转换成相应语音的技术。 传统的语音合成系统通常包括前端和后端两个模块。前端模块主要是对输入文本进行分析,提取后端模块所需要的语言学信息,对于中文合成系统而言,前端模块一般包含文本正则化、分词、词性预测、多音字消 阅读全文
posted @ 2018-08-14 13:35 冬色 阅读(24508) 评论(0) 推荐(1)
摘要:前置知识 激励:信号处理中的输入 谐振:等同于 共振 ,不同领域的不同称谓。当电路中激励的频率等于电路的固有频率时,电路的电磁振荡的振幅也将达到峰值,这就称作 谐振 。参见 "谐振 百度百科" 白噪声:指功率谱密度在整个频域内均匀分布的噪声。参见 "白噪声 百度百科" 音素:phoneme,语音中最 阅读全文
posted @ 2018-08-12 22:57 冬色 阅读(4643) 评论(0) 推荐(2)
摘要:优化算法 先导知识:泰勒公式 $$ f(x)=\sum_{n=0}^{\infty}\frac{f^{(n)}(x_0)}{n!}(x x_0)^n $$ 一阶泰勒展开: $$ f(x)\approx f(x_0)+f'(x_0)(x x_0) $$ 二阶泰勒展开: $$ f(x)\approx f 阅读全文
posted @ 2018-07-23 23:08 冬色 阅读(1756) 评论(0) 推荐(0)
摘要:Deep Joint Rain Detection and Removal from a Single Image[1] 简介:多任务全卷积从单张图片中去除雨迹。本文在现有的模型上,开发了一种多任务深度学习框架,学习了三个方面,包括二元雨条纹映射(binary rain streak map),雨条 阅读全文
posted @ 2018-07-13 23:59 冬色 阅读(1287) 评论(0) 推荐(0)
摘要:Benchmarking Streaming Computation Engines: Storm, Flink and Spark Streaming[1] 简介:雅虎发布的一份各种流处理引擎的基准测试,包括Storm, Flink, Spark Streaming 动机:贴近生产环境,使用Kaf 阅读全文
posted @ 2018-07-13 23:58 冬色 阅读(549) 评论(0) 推荐(0)
摘要:1 Introduction 信息时代产生了大量的数据,运用和使用数据已经成为一个公司乃至一个国家核心实力的重要组成部分。当代大数据一般指的是:数据量巨大,需要运用新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长和多样化的信息资产。大数据的特征有四个层面:第一:数据量巨大,从TB级 阅读全文
posted @ 2018-07-13 23:20 冬色 阅读(454) 评论(0) 推荐(0)
摘要:如何表示词语的意思 语言学中meaning近似于“指代,代指,符号”。 计算机中如何处理词语的意思 过去一直采用 ,计算语言学中常见的方式时WordNet那样的词库,比如NLTK中可以通过WordNet查询熊猫的上位词(hypernums),得到“食肉动物”,“动物”之类的上位词。也可以查询“goo 阅读全文
posted @ 2018-07-13 23:18 冬色 阅读(416) 评论(0) 推荐(0)
摘要:何为自然语言处理 自然语言处理的目标是让计算机处理或者“理解”自然语言,以完成有意义的任务,如QA等。 自然语言处理涉及的层次 输入有两个来源:语音和文本,所以第一级是语音识别,OCR或者分词 形态学(Morphological analysis)或称词法或者词汇形态学。其研究词的内部结构,包括屈折 阅读全文
posted @ 2018-07-13 23:15 冬色 阅读(497) 评论(0) 推荐(0)
摘要:曲线拟合的几种方法 最大似然估计MLE,最大后验概率MAP: "MLE和MAP" MLE 给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参,即“模型已定,参数未知”。最大化: MAP 假如这个参数有一个先验概率,比如说,在抛硬币的例子中,假如我们的经验告诉我 阅读全文
posted @ 2018-07-13 23:13 冬色 阅读(213) 评论(0) 推荐(0)
摘要:特征和数据决定了机器学习效果的上限,而算法和模型不过是接近这个上限而已,因此 对于机器学习是及其重要的。 一图胜前言[1]: 数据清洗 在实际的应用过程中,数据是十分的杂乱的,可能包含大量的噪音,缺失值等,所以需要通过一些方法,尽可能提高数据质量。一般包括: 分析数据 缺失值处理 异常值处理 噪音数 阅读全文
posted @ 2018-07-13 23:13 冬色 阅读(903) 评论(0) 推荐(0)
摘要:Decision Tree builds classification or regression models in the form of a tree structure. It break down dataset into smaller and smaller subsets while 阅读全文
posted @ 2018-07-13 23:06 冬色 阅读(353) 评论(0) 推荐(0)
摘要:参考文献: "PRML2" 参数方法和非参数方法 机器学习上的方法分为参数方法(根据先验知识假定模型服从某种分布,然后利用训练集估计出模型参数,也就弄清楚了整个模型,例如感知器)和非参数方法(基于记忆训练集,然后根据训练集预测,例如kNN)。 参数方法 参数方法根据先验知识假定模型服从某种分布,然后 阅读全文
posted @ 2018-07-13 23:06 冬色 阅读(355) 评论(0) 推荐(0)
摘要:xgboost和gdbt 在科学研究中,有种优化方法叫组合,将很多人的方法组合在一起做成一个集成的方法,集百家之长,效果一般就会比单个的好,这个方法就是集成学习。集成学习将弱学习算法通过组合提升为强学习算法。这要求每个弱学习方法要具有一定的准确性,并且之间具有差异性,即集成学习,关键在于各个弱分类器 阅读全文
posted @ 2018-07-13 23:02 冬色 阅读(930) 评论(0) 推荐(0)
摘要:对模型参数进行限制或者规范化能将一些参数朝着0收缩(shrink)。使用收缩的方法的效果提升是相当好的,岭回归(ridge regression,后续以ridge代称),lasso和弹性网络(elastic net)是常用的变量选择的一般化版本。弹性网络实际上是结合了岭回归和lasso的特点。 La 阅读全文
posted @ 2018-07-13 23:02 冬色 阅读(12334) 评论(0) 推荐(0)
摘要:常规参数General Parameters 1. booster[default=gbtree]:选择基分类器,可以是:gbtree,gblinear或者dart。gbtree和draf基于树模型,而gblinear基于线性模型。 2. slient[default=0]:是否有运行信息输出,设置 阅读全文
posted @ 2018-07-13 23:01 冬色 阅读(10794) 评论(0) 推荐(0)
摘要:LightGBM介绍 xgboost是一种优秀的boosting框架,但是在使用过程中,其训练耗时过长,内存占用比较大。微软在2016年推出了另外一种boosting框架——lightgbm,在不降低准确度的的前提下,速度提升了10倍左右,占用内存下降了3倍左右。详细的实验结果参见: "LightG 阅读全文
posted @ 2018-07-13 23:01 冬色 阅读(1507) 评论(0) 推荐(0)