爱露查 - 博客园

2025年7月5日

摘要： Flow-based Model 区别于GAN，基于流的生成模型明确的学习了真实数据的概率密度函数，这个模型显式地学习了数据分布，能够有效地完成许多下游任务。数学基础： 1.Jacobian：对于输入x，输出f(x)的雅可比矩阵为： \[ \mathbf{J} = \begin{bmatr 阅读全文

posted @ 2025-07-05 10:34 爱露查阅读(33) 评论(0) 推荐(0)

2025年7月4日

GAN解读

摘要：生成对抗网络： GAN是一种通过两个神经网络相互对抗的深度学习模型，其目标是设计一个生成器，能够从一个简单分布中随机采样输入到生成器网络中，输出想要生成的内容；如果是条件式的，生成器会再接受一个输入x作为条件，对于同一个x，有不同的采样输出不同的y，输出y的分布的网络就是生成器。 GAN中另阅读全文

posted @ 2025-07-04 10:13 爱露查阅读(31) 评论(0) 推荐(0)

2025年7月2日

多头注意力机制解读

摘要：由于许多教程在讲解多头注意力机制的时候，只是单独地讲了将通道数分开的操作，并没有非常明确的讲出多头注意力机制与单头注意力机制的区别，这里通过一个简单的例子说明一下：这里假设输入为3个token，每个token被编码为4维的向量，得到： a1,1 a1,2 a1,3 a1,4 a2,1 a2,2 a 阅读全文

posted @ 2025-07-02 11:50 爱露查阅读(104) 评论(0) 推荐(0)

2025年5月4日

VITS

摘要： 1.三种生成模型(GAN、VAE、FLOW）生成模型：图像、文本、语音等数据，都可以看做是从一个复杂分布中采样得到的。从简单分布中随机采样一个z，经过生成器Generator后生成一个复杂样本X，这个过程就叫做生成。 Gan（生成竞争网络）：从简单分布中经过生成器G生成一个假的样本，再通过鉴别器D 阅读全文

posted @ 2025-05-04 14:23 爱露查阅读(61) 评论(0) 推荐(0)

2025年4月26日

语音克隆（SV2TTS）

摘要：语音克隆：基于SV迁移学习的TTS模型 1：个性化的语音特征提取器（只需要五秒钟左右） 2：语音合成器，将文本转换为语音特征 3：声码器：将语音特征转换成音频输出（将前两个得到的矢量拼接起来） github地址：github.com/CorentinJ/Real-Time-Voice-Clonin 阅读全文

posted @ 2025-04-26 15:04 爱露查阅读(100) 评论(0) 推荐(0)

Tacotron2

摘要： 1.数据下载与准备： BZNSYP（包含10000条语音，有音素，采样频率48000Hz） 2.数据预处理：提取音频特征（fbank特征）；文本处理，归一化，将拼音分成分母韵母两部分，加上停顿、起始符、终止符；（参考了athena部分代码，里面有拼音的字典文件） 3.构建数据集：文本特征：使用p 阅读全文

posted @ 2025-04-26 14:30 爱露查阅读(46) 评论(0) 推荐(0)

2025年4月23日

典型TTS的特征提取

摘要：一、核心输入特征类别：特征类型描述用途文本信息原始文本（可转换成音素）提供内容定义韵律特征基频F0、能量、时长控制语调、节奏、情感说话人特征 d-vector、x-vector、ECAPA嵌入等区分说话人音色，支持多说话人TTS 音频特征梅尔频谱、线性频谱、STFT等模型输阅读全文

posted @ 2025-04-23 20:40 爱露查阅读(61) 评论(0) 推荐(0)

2025年4月22日

语音合成

摘要：语音合成任务分类：语音转换，文本-语音转换，语音生成声音转换：训练：语音分析，特征提取->特征匹配DTW->特征映射推理：语音分析，特征提取->特征转换->声码器声码器：将语音和特征相互转换，常用World，STRAIGHT，Griffin-Lim 特征：F0基频特征（一维），Mel-ce 阅读全文

posted @ 2025-04-22 20:31 爱露查阅读(228) 评论(0) 推荐(0)

语音信号的预处理与特征提取

摘要：信号预处理：（1）静音消除（去除前后两端的静音）： librosa.effects.trim(y,*,top_db=60,ref=<function amax>,frame_length=2048,hop_length=512,aggregate=,function amax>) top_db:阈阅读全文

posted @ 2025-04-22 08:06 爱露查阅读(92) 评论(0) 推荐(0)

语音信号的读取与显示

摘要：语音信号的格式： WAV,PCM,MP3,m4a,ATFF等最常用的是WAV 语音信号读取工具： Python：scipy.io,wave,pyaudio,audioread,soundfile,librosa 基本上读取方法都只支持wav，想读取其他格式需要结合ffmpeg(www.gyan.d 阅读全文

posted @ 2025-04-22 07:20 爱露查阅读(27) 评论(0) 推荐(0)

LXZLoo

公告