摘要: Flow-based Model ​ 区别于GAN,基于流的生成模型明确的学习了真实数据的概率密度函数,这个模型显式地学习了数据分布,能够有效地完成许多下游任务。 数学基础: ​ 1.Jacobian:对于输入x,输出f(x)的雅可比矩阵为: \[ \mathbf{J} = \begin{bmatr 阅读全文
posted @ 2025-07-05 10:34 爱露查 阅读(20) 评论(0) 推荐(0)
摘要: 生成对抗网络: ​ GAN是一种通过两个神经网络相互对抗的深度学习模型,其目标是设计一个生成器,能够从一个简单分布中随机采样输入到生成器网络中,输出想要生成的内容;如果是条件式的,生成器会再接受一个输入x作为条件,对于同一个x,有不同的采样输出不同的y,输出y的分布的网络就是生成器。 ​ GAN中另 阅读全文
posted @ 2025-07-04 10:13 爱露查 阅读(26) 评论(0) 推荐(0)
摘要: 由于许多教程在讲解多头注意力机制的时候,只是单独地讲了将通道数分开的操作,并没有非常明确的讲出多头注意力机制与单头注意力机制的区别,这里通过一个简单的例子说明一下: 这里假设输入为3个token,每个token被编码为4维的向量,得到: a1,1 a1,2 a1,3 a1,4 a2,1 a2,2 a 阅读全文
posted @ 2025-07-02 11:50 爱露查 阅读(79) 评论(0) 推荐(0)
摘要: 1.三种生成模型(GAN、VAE、FLOW) 生成模型:图像、文本、语音等数据,都可以看做是从一个复杂分布中采样得到的。从简单分布中随机采样一个z,经过生成器Generator后生成一个复杂样本X,这个过程就叫做生成。 Gan(生成竞争网络):从简单分布中经过生成器G生成一个假的样本,再通过鉴别器D 阅读全文
posted @ 2025-05-04 14:23 爱露查 阅读(36) 评论(0) 推荐(0)
摘要: 语音克隆: 基于SV迁移学习的TTS模型 1:个性化的语音特征提取器(只需要五秒钟左右) 2:语音合成器,将文本转换为语音特征 3:声码器:将语音特征转换成音频输出(将前两个得到的矢量拼接起来) github地址:github.com/CorentinJ/Real-Time-Voice-Clonin 阅读全文
posted @ 2025-04-26 15:04 爱露查 阅读(81) 评论(0) 推荐(0)
摘要: 1.数据下载与准备: BZNSYP(包含10000条语音,有音素,采样频率48000Hz) 2.数据预处理: 提取音频特征(fbank特征);文本处理,归一化,将拼音分成分母韵母两部分,加上停顿、起始符、终止符;(参考了athena部分代码,里面有拼音的字典文件) 3.构建数据集: 文本特征:使用p 阅读全文
posted @ 2025-04-26 14:30 爱露查 阅读(33) 评论(0) 推荐(0)
摘要: 一、核心输入特征类别: 特征类型 描述 用途 文本信息 原始文本(可转换成音素) 提供内容定义 韵律特征 基频F0、能量、时长 控制语调、节奏、情感 说话人特征 d-vector、x-vector、ECAPA嵌入等 区分说话人音色,支持多说话人TTS 音频特征 梅尔频谱、线性频谱、STFT等 模型输 阅读全文
posted @ 2025-04-23 20:40 爱露查 阅读(46) 评论(0) 推荐(0)
摘要: 语音合成任务分类: 语音转换,文本-语音转换,语音生成 声音转换: 训练:语音分析,特征提取->特征匹配DTW->特征映射 推理:语音分析,特征提取->特征转换->声码器 声码器:将语音和特征相互转换,常用World,STRAIGHT,Griffin-Lim 特征:F0基频特征(一维),Mel-ce 阅读全文
posted @ 2025-04-22 20:31 爱露查 阅读(195) 评论(0) 推荐(0)
摘要: 信号预处理: (1)静音消除(去除前后两端的静音): librosa.effects.trim(y,*,top_db=60,ref=<function amax>,frame_length=2048,hop_length=512,aggregate=,function amax>) top_db:阈 阅读全文
posted @ 2025-04-22 08:06 爱露查 阅读(68) 评论(0) 推荐(0)
摘要: 语音信号的格式: WAV,PCM,MP3,m4a,ATFF等 最常用的是WAV 语音信号读取工具: Python:scipy.io,wave,pyaudio,audioread,soundfile,librosa 基本上读取方法都只支持wav,想读取其他格式需要结合ffmpeg(www.gyan.d 阅读全文
posted @ 2025-04-22 07:20 爱露查 阅读(17) 评论(0) 推荐(0)