随笔分类 -  智能语音处理

摘要:1.三种生成模型(GAN、VAE、FLOW) 生成模型:图像、文本、语音等数据,都可以看做是从一个复杂分布中采样得到的。从简单分布中随机采样一个z,经过生成器Generator后生成一个复杂样本X,这个过程就叫做生成。 Gan(生成竞争网络):从简单分布中经过生成器G生成一个假的样本,再通过鉴别器D 阅读全文
posted @ 2025-05-04 14:23 爱露查 阅读(50) 评论(0) 推荐(0)
摘要:语音克隆: 基于SV迁移学习的TTS模型 1:个性化的语音特征提取器(只需要五秒钟左右) 2:语音合成器,将文本转换为语音特征 3:声码器:将语音特征转换成音频输出(将前两个得到的矢量拼接起来) github地址:github.com/CorentinJ/Real-Time-Voice-Clonin 阅读全文
posted @ 2025-04-26 15:04 爱露查 阅读(94) 评论(0) 推荐(0)
摘要:1.数据下载与准备: BZNSYP(包含10000条语音,有音素,采样频率48000Hz) 2.数据预处理: 提取音频特征(fbank特征);文本处理,归一化,将拼音分成分母韵母两部分,加上停顿、起始符、终止符;(参考了athena部分代码,里面有拼音的字典文件) 3.构建数据集: 文本特征:使用p 阅读全文
posted @ 2025-04-26 14:30 爱露查 阅读(42) 评论(0) 推荐(0)
摘要:一、核心输入特征类别: 特征类型 描述 用途 文本信息 原始文本(可转换成音素) 提供内容定义 韵律特征 基频F0、能量、时长 控制语调、节奏、情感 说话人特征 d-vector、x-vector、ECAPA嵌入等 区分说话人音色,支持多说话人TTS 音频特征 梅尔频谱、线性频谱、STFT等 模型输 阅读全文
posted @ 2025-04-23 20:40 爱露查 阅读(57) 评论(0) 推荐(0)
摘要:语音合成任务分类: 语音转换,文本-语音转换,语音生成 声音转换: 训练:语音分析,特征提取->特征匹配DTW->特征映射 推理:语音分析,特征提取->特征转换->声码器 声码器:将语音和特征相互转换,常用World,STRAIGHT,Griffin-Lim 特征:F0基频特征(一维),Mel-ce 阅读全文
posted @ 2025-04-22 20:31 爱露查 阅读(221) 评论(0) 推荐(0)
摘要:信号预处理: (1)静音消除(去除前后两端的静音): librosa.effects.trim(y,*,top_db=60,ref=<function amax>,frame_length=2048,hop_length=512,aggregate=,function amax>) top_db:阈 阅读全文
posted @ 2025-04-22 08:06 爱露查 阅读(86) 评论(0) 推荐(0)
摘要:语音信号的格式: WAV,PCM,MP3,m4a,ATFF等 最常用的是WAV 语音信号读取工具: Python:scipy.io,wave,pyaudio,audioread,soundfile,librosa 基本上读取方法都只支持wav,想读取其他格式需要结合ffmpeg(www.gyan.d 阅读全文
posted @ 2025-04-22 07:20 爱露查 阅读(23) 评论(0) 推荐(0)