摘要: 声纹识别,也称说话人识别,是一种通过声音判断说话人身份的技术。声纹识别可以分为说话人辨识( )和说话人确认( )。 指将待测语音与已知集合内若干说话人比对,选取最为匹配的说话人;而 指对于一个目标身份,判断一段未知语音是否来自于这个目标身份即可。因此, 是一个1对多的判别问题,而 实际是一个1对1的阅读全文
posted @ 2019-05-05 16:32 冬色 阅读(70) 评论(0) 编辑
摘要: 这本是近三个月间零零散散看到的知识点,今记录于此。 韵律预测 口语句子的韵律结构是指某些词似乎自然地结合在一起,而某些词似乎有明显间隔或彼此分开。如: 包含两个语调短语,边界即是逗号处。 在第一个短语中,似乎还有更小的韵律边界,通常称为中间短语,把单词做如下分割: 从一个语调短语的开始到结尾,$F_阅读全文
posted @ 2019-04-13 11:46 冬色 阅读(36) 评论(0) 编辑
摘要: 排列与组合公式 从n个不同元素中任取r个,求取法个数; 排列要求次序,组合不讲次序; 全排列:$A^n_n=n!$ 选排列:$A_n^r=\frac{n!}{(n r)!}=n(n 1)...(n r+1)$ 组合:$C_n^r=\binom{n}{r}=\frac{n!}{r!(n r)!}=\f阅读全文
posted @ 2019-03-01 17:48 冬色 阅读(74) 评论(0) 编辑
摘要: 分类指标 精确率和召回率:多用于二分类问题 混淆矩阵 其中,TP(True Positive, 真正):被模型预测为正例的正样本; FP(False Positive, 假正):被模型预测为正例的负样本; FN(False Negative, 假负):被模型预测为负例的正样本; TN(True Ne阅读全文
posted @ 2019-02-21 11:27 冬色 阅读(97) 评论(0) 编辑
摘要: 逻辑回归(Logistic Regression, LR) 逻辑回归是一种广义线性模型,通过对数概率函数,将线性函数的结果进行映射,从而将目标函数的取值空间从$( \infty ,+\infty )$映射到了$(0,1)$,从而可以处理分类问题。注意:逻辑回归是一种 分类 算法。 前置知识 对数概率阅读全文
posted @ 2019-02-19 11:44 冬色 阅读(488) 评论(0) 编辑
摘要: 又名: 、`tf.contrib.rnn.LSTMCell` 参见: "tf.nn.rnn_cell.LSTMCell" 输出: output:LSTM单元输出,与 的区别在于该输出又经过激活以及和一个sigmoid函数输出相乘。shape: [batch_size,num_units] new_s阅读全文
posted @ 2019-02-15 16:47 冬色 阅读(76) 评论(0) 编辑
摘要: 在Tensorflow、Numpy和PyTorch中都提供了使用 的api,einsum是一种能够简洁表示点积、外积、转置、矩阵 向量乘法、矩阵 矩阵乘法等运算的领域特定语言。在Tensorflow等计算框架中使用einsum,操作矩阵运算时可以免于记忆和使用特定的函数,并且使得代码简洁,高效。 如阅读全文
posted @ 2019-01-25 15:03 冬色 阅读(181) 评论(0) 编辑
摘要: 图像中的风格转换 风格转换是最早来源于图像领域的概念,一言以蔽之,即是:将一张图片的艺术风格应用到另外一张图片上。 " " 深度卷积网络具有良好的特征提取能力,不同层提取的特征具有不同的含义。深度卷积网络由一层层的非线性函数组成,可以视为复杂的多元线性函数,该函数完成从输入图像到输出的映射。一般而言阅读全文
posted @ 2019-01-20 14:45 冬色 阅读(1010) 评论(0) 编辑
摘要: 一维卷积 在tensorflow中,可以使用 实现一维卷积。 : 输入Tensor : int, 输出Tensor维度 : int/tuple or list of int, 一维卷积窗口的大小 : int/tuple or list of int, 卷积步长 : /`same` : int/tup阅读全文
posted @ 2019-01-13 21:44 冬色 阅读(64) 评论(0) 编辑
摘要: 展示如何将数据输入到计算图中 可以看作是相同类型“元素”的有序列表,在实际使用时,单个元素可以是向量、字符串、图片甚至是tuple或dict。 数据集对象实例化: 迭代器对象实例化: 读取结束异常:如果一个 中的元素被读取完毕,再尝试 的话,会抛出 异常,这个行为与使用队列方式读取数据是一致的。 高阅读全文
posted @ 2018-12-02 21:51 冬色 阅读(91) 评论(0) 编辑
摘要: 第一章 图像领域,第$i$类图片提取到的特征: $$ feature_i=\sum_jw_{i,j}x_j+b_i $$ 其中,$j$表示一张图片的第$j$个像素,$b_i$是偏置值(bias),顾名思义就是这个数据本身的一些倾向,比如如果训练获得的参数$w$大部分数字是0,那么0特征对应的bias阅读全文
posted @ 2018-11-27 22:18 冬色 阅读(41) 评论(0) 编辑
摘要: 简单而言,seq2seq由两个RNN组成,一个是编码器(encoder),一个是解码器(decoder).以MT为例,将源语言“我爱中国”译为“I love China”,则定义序列: $$ X=(x_0,x_1,x_2,x_3)\\ 其中,x_0=“我”,x_1=“爱”,x_2=“中”,x_3=“阅读全文
posted @ 2018-10-29 17:01 冬色 阅读(146) 评论(3) 编辑
摘要: 第二章 Tensorflow主要依赖两个工具:Protocol Buffer和Bazel Protocol. Protocol Buffer是一个结构数据序列化的的工具,在Tensorflow中大部分的数据都是通过Protocol Buffer的形式储存,Bazel是谷歌开源的编译工具。 第三章 3阅读全文
posted @ 2018-10-28 22:42 冬色 阅读(65) 评论(0) 编辑
摘要: 论文地址: "Attention is you need" 序列编码 深度学习做NLP的方法,基本都是先将句子分词,然后每个词转化为对应的的词向量序列,每个句子都对应的是一个矩阵$X=(x_1,x_2,...,x_t)$,其中$x_i$都代表着第$i$个词向量,维度为d维,故$x\in R^{n×d阅读全文
posted @ 2018-10-14 22:14 冬色 阅读(415) 评论(0) 编辑
摘要: Tacotron2 前置知识 通过时域到频域的变换,可以得到从侧面看到的 频谱 ,但是这个频谱并没有包含时域的中全部的信息,因为频谱只代表各个频率正弦波的振幅是多少,而没有提到相位。基础的正弦波$Asin(wt+\theta)$中,振幅、频率和相位缺一不可。不同相位决定了波的位置,所以对于频域分析,阅读全文
posted @ 2018-09-10 19:25 冬色 阅读(410) 评论(3) 编辑
摘要: 整个特征预测网络是一个带有注意力机制(attention)的seq2seq网络。 编码器 解码器(Encoder Decoder)结构 在原始的编码器 解码器结构中,编码器(encoder)输入一个序列或句子,然后将其压缩到一个 固定长度 的向量(向量也可以理解为一种形式的序列)中;解码器(deco阅读全文
posted @ 2018-08-24 08:56 冬色 阅读(2523) 评论(0) 编辑
摘要: 数据增强(Data augmentation) 预处理(Pre processing) 初始化(Initializations) 训练中的Tricks 激活函数(Activation functions) 正则化(Regularizations) 画图洞察数据 集成学习(Ensemble) 数据增强阅读全文
posted @ 2018-08-16 20:46 冬色 阅读(120) 评论(0) 编辑
摘要: 只要神经元足够,神经网络可以以任意精度逼近任意函数。为了拟合非线性函数,需要向神经网络中引入非线性变换,比如使用$sigmoid$激活函数: $$ sigmoid(x)=\frac{1}{1+e^{ x}} $$ $sigmoid(x)$可简写为$\sigma(x)$,该函数可以将实数压缩到开区间$阅读全文
posted @ 2018-08-15 13:00 冬色 阅读(5689) 评论(0) 编辑
摘要: 语音合成,又称文语转换(Text To Speech, TTS),是一种可以将任意输入文本转换成相应语音的技术。 传统的语音合成系统通常包括前端和后端两个模块。前端模块主要是对输入文本进行分析,提取后端模块所需要的语言学信息,对于中文合成系统而言,前端模块一般包含文本正则化、分词、词性预测、多音字消阅读全文
posted @ 2018-08-14 13:35 冬色 阅读(3178) 评论(0) 编辑
摘要: 前置知识 激励:信号处理中的输入 谐振:等同于 共振 ,不同领域的不同称谓。当电路中激励的频率等于电路的固有频率时,电路的电磁振荡的振幅也将达到峰值,这就称作 谐振 。参见 "谐振 百度百科" 白噪声:指功率谱密度在整个频域内均匀分布的噪声。参见 "白噪声 百度百科" 音素:phoneme,语音中最阅读全文
posted @ 2018-08-12 22:57 冬色 阅读(551) 评论(0) 编辑
摘要: 优化算法 先导知识:泰勒公式 $$ f(x)=\sum_{n=0}^{\infty}\frac{f^{(n)}(x_0)}{n!}(x x_0)^n $$ 一阶泰勒展开: $$ f(x)\approx f(x_0)+f'(x_0)(x x_0) $$ 二阶泰勒展开: $$ f(x)\approx f阅读全文
posted @ 2018-07-23 23:08 冬色 阅读(747) 评论(0) 编辑
摘要: 文本 文本预处理 1. 中文分词:分词工具: "jieba" / "snownlp" /...,是否需要去除停用词? 2. word embedding:工具:word2vec/ doc2vec/ TF IDF/ CountVectorizer/ HashVectorizer/ ....作为模型输入阅读全文
posted @ 2018-07-23 19:09 冬色 阅读(92) 评论(0) 编辑
摘要: tf.nn.softmax softmax是神经网络的最后一层将实数空间映射到概率空间的常用方法,公式如下: $$ softmax(x)_i=\frac{exp(x_i)}{\sum_jexp(x_j)} $$ 本文意于分析tensorflow中的 ,关于softmax的具体推导和相关知识点,参照 阅读全文
posted @ 2018-07-18 17:25 冬色 阅读(260) 评论(0) 编辑
摘要: Deep Joint Rain Detection and Removal from a Single Image[1] 简介:多任务全卷积从单张图片中去除雨迹。本文在现有的模型上,开发了一种多任务深度学习框架,学习了三个方面,包括二元雨条纹映射(binary rain streak map),雨条阅读全文
posted @ 2018-07-13 23:59 冬色 阅读(291) 评论(0) 编辑
摘要: Benchmarking Streaming Computation Engines: Storm, Flink and Spark Streaming[1] 简介:雅虎发布的一份各种流处理引擎的基准测试,包括Storm, Flink, Spark Streaming 动机:贴近生产环境,使用Kaf阅读全文
posted @ 2018-07-13 23:58 冬色 阅读(129) 评论(0) 编辑