【深度】小度VS最强大脑声纹识别战成平局，吴恩达详解技术原理

xiaoxiao2021-04-16 311

2016年1月13日晚，百度人工智能代表“小度”与最强大脑选手孙亦廷在声纹识别上展开人机大战，最终双方战平。在总比分上，小度凭借着上周险胜王峰，继续保持领先优势。这场人机大战依然留有悬念，双方将在下周迎来终极决战。

本周比赛的项目是凭借既有声音片段识别发声者身份，也就是所谓的声纹识别（Speaker Recognition）。比赛的设置是，最强大脑“听音神童”孙亦廷和小度需要凭借3位目标对象残缺的声音资料，在性别相同、年龄相仿、声线极为相似的专业合唱团中将她们分别找出，找出多者获胜。

从现场的情况来看，这一任务难度颇高，人和机器都只正确地找出了一位目标对象，正确率只有33.33%。

2个模型，2万人数据，5千小时训练

1月13日的媒体见面会上，百度首席科学家吴恩达（Andrew Ng）介绍了百度在此次比赛中所使用的人工智能技术：包含两个模型，一个是DNN-ivector，另一个是基于端到端深度学习的说话人信息提取。

DNN-ivector是目前被广泛采用的声纹识别系统。其主要特点就是将之前提取的声学特征按照一定的发声单元对齐后投影到一个较低的线性空间中，然后进行说话人信息的挖掘。直观地说，就是在挖掘“不同的人在发同一个音时的区别是什么”。

百度提供的资料显示，他们首先会用大量的数据训练一个能够将声学特征很好的对应到某一发声单元的神经网络，如下图所示。这样，每一帧特征通过神经网络后，就会被分配到某一发声单元上去。然后，会对每一句话在所有的发声单元进行逐个统计，按照每个发声单元统计得到相应的信息。这样，对于每一句话就会得到一个高维的特征矢量。

在得到高维的特征矢量后，会采用一种称之为Total variability的建模方法对高维特征进行建模，

M=m+Tw

其中m是所有训练数据得到的均值超矢量，M则是每一句话的超矢量，T是奇通过大量数据训练得到的载荷空间矩阵，w则是降维后得到的ivector特征矢量，根据任务情况而言，一般取几百维。最后，对这个 ivector采用概率线性判别分析PLDA建模，从而挖掘出说话人的信息。

在实际中，百度训练了一个高精度的深度神经网络来进行发声单元的对齐，然后依托海量数据训练得到了载荷矩阵空间T，最后创造性地采用了自适应方法来进行调整T空间和PLDA空间，大大增强了模型在唱歌和说话跨方式以及短时上的声纹识别鲁棒性。

吴恩达介绍说，百度参加本轮次比赛的声纹识别模型一共包含了20000个人的声音数据，模型训练时间超过5000个小时。

第二个模型，基于端到端深度学习的说话人信息提取算法。这是一种纯粹的数据驱动的方式。通过海量数据样本以及非常深的卷积神经网络来让机器自动的去发掘声学特征中的说话人信息差异，从而提取出声学特征中的说话人信息表示。第一期的人脸识别也使用类似算法。

这一模型的训练，使用了数万个ID。

最终，小度的识别结果出自两套系统最后在得分域上进行的加权融合。

吴恩达：深度学习短期内还会更热

声纹识别中，可用于处理和存储声纹的技术非常多，包括频率估计（Frequency Estimation），隐藏马尔科夫模型，高斯混合模型，模型匹配算法、神经网络、矩阵表征、矢量量化以及决策树等等。一些系统中还用到了一些降噪技术。

吴恩达也表示，未来百度还将训练更大的模型，可能不止采纳两个模型的方案。

不过，在新智元问到深度学习是否还将主导人工智能时。吴恩达说，深度学习技术现在很火，而且还会变的越来越火。未来肯定会有新的技术出现，但是具体是什么，现在他也不能预测。

谈到2016年备受关注的对抗生成网络（GAN），吴恩达表示，这一技术有很大的潜力，但是目前主要还停留在研究阶段。

声纹识别技术应用

声纹技术在安防、金融和C端消费应用，比如手机上，都有着广泛的应用场景。目前，声纹识别技术可用但不限于以下几个领域：

金融领域反欺诈（用声纹识别确认用户信息，提高客服和系统反欺诈的能力）

客服呼叫中心，快速定位用户身份等；

智能硬件的声纹识别能力，让机器人知道自己在和谁对话以及声纹唤醒能力；

安全领域的声纹认证，类似于人脸闸机；

个性化语音识别和语音合成的辅助。

近年来，在市场上也看到了一些声纹技术应用的产品，比如支持声音解锁的智能手机。但是，与其他人工智能技术一样，声纹技术也面临着潜力巨大，但应用困难的问题，目前仍然没有成熟的产品出现。

百度大脑开放

在记者会上，新智元了解到，近日百度大脑官网（ai.baidu.com）全新改版上线，百度大脑不止小度可以拥有，现已全面开放给所有开发者。

改版后的百度大脑官网除了原本的语音技术、图像技术、自然语言、用户画像、和机器学习五个模块外，新版网页还新增加了AR 增强现实的功能技术，AR 内容平台能提供高效灵活的一站式的 AR 行业解决方案，贯穿各行业 AR 的内容创作、内容管理全流程服务。

此外，13类场景化技术服务、超过20种功能调用，相比原版网页，新版网页在对每一项技术分类上做得更加细致，能够全方位为企业/机构/创业者/开发者进行更细致、更明确的产品技术展示，并提供以 API 或 SDK 的形式的接口服务。

文章转自新智元公众号，原文链接

相关资源：论文研究-基于深度循环网络的声纹识别方法研究及应用.pdf

技术

最新回复(0)