卑微的蜗牛 - 博客园

2020年9月

摘要：论文： X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION 思想： X-VECTORS是当前声纹识别领域主流的baseline模型框架，得益于其网络中的statistics pooling层，X-VECTORS可接受任意长度的输入，转化为阅读全文

posted @ 2020-09-12 17:35 卑微的蜗牛阅读(8189) 评论(0) 推荐(0)

声纹识别算法阅读之3D-CONV TI-SV

摘要：论文： TEXT-INDEPENDENT SPEAKER VERIFICATION USING 3D CONVOLUTIONAL NEURAL NETWORKS 思想：本文提出了一种采用3D-CNN进行文本无关说话人验证任务的架构，相较于2D-CNN,3D-CNN增加了一个维度，使得网络能够一次性阅读全文

posted @ 2020-09-12 17:30 卑微的蜗牛阅读(727) 评论(0) 推荐(0)

声纹识别算法阅读之deep-speaker

摘要：论文： Deep Speaker: an End-to-End Neural Speaker Embedding System 思想： Deep Speaker是百度提出的一种端到端的说话人编码方法。该方法采样ResCNN或GRU进行帧级别的特征提取，然后时间平均层将输入序列帧级别的特征转化为句子级阅读全文

posted @ 2020-09-12 17:20 卑微的蜗牛阅读(2916) 评论(0) 推荐(1)

声纹识别算法阅读之GE2E

摘要：论文： GENERALIZED END-TO-END LOSS FOR SPEAKER VERIFICATION 思想：本文是在Google上一篇论文attention-based model(TE2E[1])的基础上，针对损失函数做的改进，提出了GE2E loss；GE2E loss包含soft 阅读全文

posted @ 2020-09-12 17:11 卑微的蜗牛阅读(2127) 评论(1) 推荐(0)

声纹识别算法阅读之TE2E

摘要：论文： ATTENTION-BASED MODELS FOR TEXT-DEPENDENT SPEAKER VERIFICATION 思想：可以看作是在Google15年提出的d-vector算法的改进， 1）采用可学习的带权重和偏置的cosine得分； 2）为减少语句中的噪声和静音干扰，对LST 阅读全文

posted @ 2020-09-12 16:52 卑微的蜗牛阅读(802) 评论(0) 推荐(0)

声纹识别算法阅读之d-vector

摘要：论文： End-to-End Text-Dependent Speaker Verification 思想： google提出的文本相关的说话人确认，通过DNN或LSTM的网络结构提取说话人特征表达；然后注册阶段输入说话人的多个文本相关句子(考虑环境噪声等干扰)得到的特征表达取平均值作为该说话人的e 阅读全文

posted @ 2020-09-12 16:35 卑微的蜗牛阅读(1999) 评论(0) 推荐(0)

声纹识别算法阅读之VoxCeleb2

摘要：论文： VoxCeleb2: Deep Speaker Recognition 思想：显然，VoxCeleb2是在voxceleb基础上扩充和改进，仍然是两个贡献点： 1）扩大声纹识别数据集，由voxceleb的1251说话人超过19万句子，到voxceleb2的超过6000说话人共计超过百万的语音阅读全文

posted @ 2020-09-12 16:25 卑微的蜗牛阅读(2103) 评论(0) 推荐(0)

声纹识别算法阅读之VoxCeleb

摘要：论文： VoxCeleb: a large-scale speaker identification dataset 思想： 1）整理了一个非约束的声纹识别数据集，1251个左右说话人，每个说话人100utts；整理来源youtube； 2）采用VGG-M网络进行说话人辨别和验证特征表达学习，并在此阅读全文

posted @ 2020-09-12 16:18 卑微的蜗牛阅读(1786) 评论(0) 推荐(0)

2018年1月

caffe-dnnh实验

摘要：下面是我在做基于深度哈希的大规模图像检索中的一个实验，相关文档介绍给大家，具体内容查看提供的相关链接，总结的很到位了，我就不再赘述。实践cvpr2015年的深度哈希图像检索论文：Simultaneous feature learning and hash coding with deep neur 阅读全文

posted @ 2018-01-14 15:45 卑微的蜗牛阅读(729) 评论(0) 推荐(0)

2017年11月

目标检测算法SSD在window环境下GPU配置训练自己的数据集

摘要：由于最近想试一下牛掰的目标检测算法SSD。于是乎，自己做了几千张数据（实际只有几百张，利用数据扩充算法比如镜像，噪声，切割，旋转等扩充到了几千张，其实还是很不够）。于是在网上找了相关的介绍，自己处理数据转化为VOC数据集的格式，在转化为XML格式等等。具体方法可以参见以下几个博客。具体是window 阅读全文

posted @ 2017-11-30 22:15 卑微的蜗牛阅读(1305) 评论(0) 推荐(0)

公告