冬色 - 博客园

2021年6月27日

摘要：对某一个变量感兴趣的话，在启动调试之后，直接对该变量“添加监视”，在调试窗口中即可看到该变量的变化；查看指针指向的值 \[ 调试\to 窗口\to 内存\to 内存1 \] 拷贝指针的值，将指针的值复制到“内存1”的地址文本框中，显示的值默认为十六进制。程序调试快捷键总结 Ctrl + F5直接阅读全文

posted @ 2021-06-27 22:27 冬色阅读(298) 评论(0) 推荐(0) 编辑

Shell简明教程

摘要：简介 sh是Unix最初使用的shell，Linux默认为bash，是sh的扩展。 source <FileName>：在当前bash环境下，读取并执行FileName中的命令，该FileName可以无执行权限，该命令可以用命令.代替； sh <FileName>或者bash <FileName>：阅读全文

posted @ 2021-06-27 22:25 冬色阅读(207) 评论(0) 推荐(0) 编辑

2021年2月1日

语音合成中声学模型在可控性上的努力

摘要：本文主要介绍3种模型，分别是前向注意力（Forward Attention，FA/FA+TA），逐步单向注意力（Stepwise Monotonic Attention，SMA）和FastSpeech2，前两者都是要求注意力权重尽量保证单调向前。具体来说，假设某一解码步上的注意力权重为：\([0,0 阅读全文

posted @ 2021-02-01 11:17 冬色阅读(821) 评论(1) 推荐(0) 编辑

2020年12月5日

Interspeech 2020调研：文本前端

摘要：本文主要介绍Interspeech2020中关于语音合成文本前端相关的进展，总体来说，主要是关注中文里面的多音字注音。 g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin Chinese Based on a New 阅读全文

posted @ 2020-12-05 18:36 冬色阅读(2165) 评论(0) 推荐(1) 编辑

2020年10月8日

Unsupervised Pretraining Transfers well Across Languages

摘要：利用非平行语料训练跨语种和多语种的语音识别（Automatic Speech Recognization，ASR），使用对比预测编码（Contrastive Predictive Coding，CPC）预训练语音识别系统，效果甚至超过监督学习。代码地址：CPC_audio 简介已有较多的工作应用阅读全文

posted @ 2020-10-08 22:18 冬色阅读(400) 评论(0) 推荐(0) 编辑

2020年9月20日

由声学特征重建语音波形-声码器的最近进展

摘要：本文介绍近期出现的、具有代表性的，由声学特征重建语音波形的相关工作。将声学特征转换为语音波形的这类模型通常被称作声码器，一般来说，目前的端到端语音合成首先由声学模型生成声学特征，比如梅尔频谱、线性谱等，再由声码器转换为最终的语音。生成语音中的韵律、表现力等由声学模型决定，而清晰度则由声码器决定，声码阅读全文

posted @ 2020-09-20 18:53 冬色阅读(2027) 评论(0) 推荐(0) 编辑

2020年9月12日

神经机器翻译中有用的技巧

摘要：本篇总结神经机器翻译的实践中，较为基础的最佳实践。应该使用哪个模型作为基线 Transformer是2017年发布的模型，即使到2020年仍然是比较好的基线模型，大热的BERT就是其升级版。代码地址 Fairseq 这里实际推荐比较使用Fairseq指定arch为Transformer，按照官方阅读全文

posted @ 2020-09-12 18:55 冬色阅读(1205) 评论(0) 推荐(0) 编辑

2020年9月11日

多语种神经机器翻译

摘要：神经机器翻译（Neural Machine Translation，NMT）建立源语言到目标语言的映射。多语种神经机器翻译（Multilingual NMT）能够实现一个模型在多个语言之间映射。本篇主要介绍神经机器翻译，以及多语种神经机器翻译的最新研究进展。 Does Multi-Encoder H 阅读全文

posted @ 2020-09-11 09:30 冬色阅读(1363) 评论(0) 推荐(0) 编辑

2020年8月23日

利用Fairseq训练新的机器翻译模型

摘要：利用Fairseq训练一个新的机器翻译模型，官方机器翻译(German-English)示例：Fairseq-Training a New Model。数据预处理进入fairseq/examples/translation目录下，执行sh prepare-iwslt14.sh。prepare-i 阅读全文

posted @ 2020-08-23 18:07 冬色阅读(3219) 评论(0) 推荐(3) 编辑

2020年8月22日

Fairseq-快速可扩展的序列建模工具包

摘要：一种快速、可扩展的序列建模工具包，Pytorch的高级封装库，适用于机器翻译、语言模型和篇章总结等建模任务。抽象注册实现上的特点抽象 Dataset：数据加载 Fairseq中的Dataset基本都是按功能逐层封装，按需组合起来。所有数据加载的实现均位于fairseq/data下面。两个比阅读全文

posted @ 2020-08-22 18:35 冬色阅读(2679) 评论(0) 推荐(2) 编辑

2020年6月27日

ICASSP 2020中的语音合成

摘要： ICASSP2020中与语音合成相关一共有5个Session，分别是： Machine Learning for Speech Synthesis I Machine Learning for Speech Synthesis II Machine Learning for Speech Synth 阅读全文

posted @ 2020-06-27 21:47 冬色阅读(4727) 评论(0) 推荐(2) 编辑

2020年2月27日

类Unix环境变量配置

摘要：环境变量配置文件 MacOS Linux 如果shell的类型是zsh时，还会存在和`~/.zshrc`。其中 ,`/etc/paths /etc/bashrc /etc/profile /etc/paths /etc/bashrc`在bash shell执行时，会读取该文件。 MacOS默认用阅读全文

posted @ 2020-02-27 14:28 冬色阅读(611) 评论(0) 推荐(0) 编辑

2020年2月26日

软链接和硬链接

摘要：链接是一种文件共享方式，Linux常用其解决一些库版本的问题，通常也会将一些目录层次较深的文件链接到更易访问的目录中。在这些用途中，通常会使用软链接（又称符号链接）。硬链接：普通文件，其i node直接指向硬盘区块，类似于C++的指针。软链接：保存代表文件的绝对路径，类似于Windows的快阅读全文

posted @ 2020-02-26 15:31 冬色阅读(306) 评论(0) 推荐(0) 编辑

2020年2月25日

能量信号和功率信号的区别

摘要：对于信号$f(t)$，其能量为： $$ E=\lim_{T\to \infty}\int_{ T}^{T}|f(t)|^2dt $$ 其功率为： $$ P=\lim_{T\to \infty}\frac{1}{2T}\int_{ T}^{T}|f(t)|^2dt $$ 也就是说，能量是信号的平方在阅读全文

posted @ 2020-02-25 16:24 冬色阅读(5292) 评论(0) 推荐(2) 编辑

2019年12月15日

LeetCode题解

摘要：该文章对应的GitHub仓库： "cnlinxi/algorithm_practise" 数组中重复的数字数组中所有数字都在0~n 1的范围内，数组中某些数字是重复的，找出重复的数字。如长度为7的数组{2, 3, 1, 0, 2 5, 3}，对应的输出应为2或3. 输入：输出：解法1：排序，然阅读全文

posted @ 2019-12-15 22:32 冬色阅读(776) 评论(1) 推荐(0) 编辑

语音质量评估

摘要：语音质量评估，就是通过人类或自动化的方法评价语音质量。在实践中，有很多主观和客观的方法评价语音质量。主观方法就是通过人类对语音进行打分，比如MOS、CMOS和ABX Test。客观方法即是通过算法评测语音质量，在实时语音通话领域，这一问题研究较多，出现了诸如如PESQ和P.563这样的有参考和无参考阅读全文

posted @ 2019-12-15 22:20 冬色阅读(17845) 评论(4) 推荐(0) 编辑

2019年10月12日

音频分类技术

摘要：音频分类前置知识音频音频常常被表示为波形图，其中横轴为时间，纵轴为幅值。音频多种多样，分类中一般分为语音、音乐、噪音、静音和环境音等。采样频率每秒从模拟信号中采集的样本个数，基本单位为。信号的采样频率一般遵循奈奎斯特采样定理，即采样频率必须大于被采样信号最高频率的两倍。一般而言：为电话信阅读全文

posted @ 2019-10-12 11:19 冬色阅读(4386) 评论(0) 推荐(1) 编辑

2019年10月9日

音视频RTP数据包封装

摘要：对于语音通信而言，语音码率较低，添加适当冗余是对抗网络丢包的常见方式。冗余方式有多种，包括，`FEC RFC 3350 RFC 2198 RFC 5109`是添加FEC数据的RTP封装标准协议。 RTP格式(RFC 3350) 文档地址： "RTP: A Transport Protocol fo 阅读全文

posted @ 2019-10-09 11:14 冬色阅读(4782) 评论(0) 推荐(0) 编辑

2019年10月8日

WebRTC中的NetEQ

摘要： NetEQ使得WebRTC语音引擎能够快速且高解析度地适应不断变化的网络环境，确保了音质优美且缓冲延迟最小，其集成了自适应抖动控制以及丢包隐藏算法。 WebRTC和NetEQ概述 WebRTC WebRTC （Web Real Time Communications）是一项实时通讯技术，它允许网络阅读全文

posted @ 2019-10-08 19:30 冬色阅读(3309) 评论(0) 推荐(3) 编辑

VoIP基本原理

摘要： VoIP基本原理 VoIP是通过Internet等互联网络传递语音信息的，主要包括终端设备、网关、网守和网络管理等部分。网关负责提供IP网络和传统的接口。 VoIP的基本原理：通过语音压缩算法对语音数据进行压缩编码处理，然后将语音数据按照标准打包，经过网络把数据包发送到接收端，之后将语音数据包阅读全文

posted @ 2019-10-08 19:27 冬色阅读(2566) 评论(0) 推荐(0) 编辑

NetEQ主要文件简介

posted @ 2019-10-08 19:23 冬色阅读(447) 评论(0) 推荐(0) 编辑

2019年5月5日

声纹识别

摘要：声纹识别，也称说话人识别，是一种通过声音判断说话人身份的技术。声纹识别可以分为说话人辨识(Speaker Identification, SI)和说话人确认(Speaker Verification, SV)。SI指将待测语音与已知集合内若干说话人比对，选取最为匹配的说话人；而SV指对于一个目标身份阅读全文

posted @ 2019-05-05 16:32 冬色阅读(3726) 评论(0) 推荐(2) 编辑

2019年4月13日

杂记(2019.04.13)

摘要：这本是近三个月间零零散散看到的知识点，今记录于此。韵律预测口语句子的韵律结构是指某些词似乎自然地结合在一起，而某些词似乎有明显间隔或彼此分开。如：包含两个语调短语，边界即是逗号处。在第一个短语中，似乎还有更小的韵律边界，通常称为中间短语，把单词做如下分割：从一个语调短语的开始到结尾，$F_ 阅读全文

posted @ 2019-04-13 11:46 冬色阅读(428) 评论(0) 推荐(0) 编辑

2019年3月1日

概率论基础复习

摘要：排列与组合公式从n个不同元素中任取r个，求取法个数；排列要求次序，组合不讲次序；全排列：$A^n_n=n!$ 选排列：$A_n^r=\frac{n!}{(n r)!}=n(n 1)...(n r+1)$ 组合：$C_n^r=\binom{n}{r}=\frac{n!}{r!(n r)!}=\f 阅读全文

posted @ 2019-03-01 17:48 冬色阅读(4051) 评论(1) 推荐(2) 编辑

2019年2月21日

机器学习复习：模型评估指标

摘要：分类指标精确率和召回率：多用于二分类问题混淆矩阵其中，TP(True Positive, 真正)：被模型预测为正例的正样本； FP(False Positive, 假正)：被模型预测为正例的负样本； FN(False Negative, 假负)：被模型预测为负例的正样本； TN(True Ne 阅读全文

posted @ 2019-02-21 11:27 冬色阅读(1242) 评论(0) 推荐(0) 编辑

冬色

GitHub: https://github.com/cnlinxi

公告