会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
LXZLoo
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
2025年7月5日
FLOW解读
摘要: Flow-based Model 区别于GAN,基于流的生成模型明确的学习了真实数据的概率密度函数,这个模型显式地学习了数据分布,能够有效地完成许多下游任务。 数学基础: 1.Jacobian:对于输入x,输出f(x)的雅可比矩阵为: \[ \mathbf{J} = \begin{bmatr
阅读全文
posted @ 2025-07-05 10:34 爱露查
阅读(20)
评论(0)
推荐(0)
2025年7月4日
GAN解读
摘要: 生成对抗网络: GAN是一种通过两个神经网络相互对抗的深度学习模型,其目标是设计一个生成器,能够从一个简单分布中随机采样输入到生成器网络中,输出想要生成的内容;如果是条件式的,生成器会再接受一个输入x作为条件,对于同一个x,有不同的采样输出不同的y,输出y的分布的网络就是生成器。 GAN中另
阅读全文
posted @ 2025-07-04 10:13 爱露查
阅读(26)
评论(0)
推荐(0)
2025年7月2日
多头注意力机制解读
摘要: 由于许多教程在讲解多头注意力机制的时候,只是单独地讲了将通道数分开的操作,并没有非常明确的讲出多头注意力机制与单头注意力机制的区别,这里通过一个简单的例子说明一下: 这里假设输入为3个token,每个token被编码为4维的向量,得到: a1,1 a1,2 a1,3 a1,4 a2,1 a2,2 a
阅读全文
posted @ 2025-07-02 11:50 爱露查
阅读(79)
评论(0)
推荐(0)
2025年5月4日
VITS
摘要: 1.三种生成模型(GAN、VAE、FLOW) 生成模型:图像、文本、语音等数据,都可以看做是从一个复杂分布中采样得到的。从简单分布中随机采样一个z,经过生成器Generator后生成一个复杂样本X,这个过程就叫做生成。 Gan(生成竞争网络):从简单分布中经过生成器G生成一个假的样本,再通过鉴别器D
阅读全文
posted @ 2025-05-04 14:23 爱露查
阅读(36)
评论(0)
推荐(0)
2025年4月26日
语音克隆(SV2TTS)
摘要: 语音克隆: 基于SV迁移学习的TTS模型 1:个性化的语音特征提取器(只需要五秒钟左右) 2:语音合成器,将文本转换为语音特征 3:声码器:将语音特征转换成音频输出(将前两个得到的矢量拼接起来) github地址:github.com/CorentinJ/Real-Time-Voice-Clonin
阅读全文
posted @ 2025-04-26 15:04 爱露查
阅读(81)
评论(0)
推荐(0)
Tacotron2
摘要: 1.数据下载与准备: BZNSYP(包含10000条语音,有音素,采样频率48000Hz) 2.数据预处理: 提取音频特征(fbank特征);文本处理,归一化,将拼音分成分母韵母两部分,加上停顿、起始符、终止符;(参考了athena部分代码,里面有拼音的字典文件) 3.构建数据集: 文本特征:使用p
阅读全文
posted @ 2025-04-26 14:30 爱露查
阅读(33)
评论(0)
推荐(0)
2025年4月23日
典型TTS的特征提取
摘要: 一、核心输入特征类别: 特征类型 描述 用途 文本信息 原始文本(可转换成音素) 提供内容定义 韵律特征 基频F0、能量、时长 控制语调、节奏、情感 说话人特征 d-vector、x-vector、ECAPA嵌入等 区分说话人音色,支持多说话人TTS 音频特征 梅尔频谱、线性频谱、STFT等 模型输
阅读全文
posted @ 2025-04-23 20:40 爱露查
阅读(46)
评论(0)
推荐(0)
2025年4月22日
语音合成
摘要: 语音合成任务分类: 语音转换,文本-语音转换,语音生成 声音转换: 训练:语音分析,特征提取->特征匹配DTW->特征映射 推理:语音分析,特征提取->特征转换->声码器 声码器:将语音和特征相互转换,常用World,STRAIGHT,Griffin-Lim 特征:F0基频特征(一维),Mel-ce
阅读全文
posted @ 2025-04-22 20:31 爱露查
阅读(195)
评论(0)
推荐(0)
语音信号的预处理与特征提取
摘要: 信号预处理: (1)静音消除(去除前后两端的静音): librosa.effects.trim(y,*,top_db=60,ref=<function amax>,frame_length=2048,hop_length=512,aggregate=,function amax>) top_db:阈
阅读全文
posted @ 2025-04-22 08:06 爱露查
阅读(68)
评论(0)
推荐(0)
语音信号的读取与显示
摘要: 语音信号的格式: WAV,PCM,MP3,m4a,ATFF等 最常用的是WAV 语音信号读取工具: Python:scipy.io,wave,pyaudio,audioread,soundfile,librosa 基本上读取方法都只支持wav,想读取其他格式需要结合ffmpeg(www.gyan.d
阅读全文
posted @ 2025-04-22 07:20 爱露查
阅读(17)
评论(0)
推荐(0)
上一页
1
2
公告