专利看腾讯声纹识别技术有进步吗，声音解锁功能不再鸡肋！

2024.03.31 德高行知情郎

    知情郎·眼｜
    侃透公司专利事儿
    今天聊声纹识别。
    即如何鉴伪声音。
    顾名思义，即通过声音来识别出来“谁在说话”，是根据语音信号中的说话人个性信息来识别说话人身份的一项生物特征识别技术。
    微信也有类似声纹解锁功能，对着微信录一段用户语音，如果微信被锁住冻结不能用了，可以通过用户语音被系统识别确认为机主，解锁微信。
    这个功能早年还被用户吐槽多此一举如鸡肋！如今倒是用习惯了。

    如今，声纹识别应用于各种场合，尤其在公共安全领域，成为公安打击电信诈骗的主要侦查手段，声纹辨认技术可以在一段录音中查找出嫌疑人或缩小侦察范围。
    电信诈骗，天天有人伪装熟人语音向你借钱，各种约你老乡聚会、工作，实则都是钓鱼诈骗，令人防不胜防。
    实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不变。
    基于声纹的这两个特征，侦查人员就可将获取的犯罪分子的声纹和嫌疑人的声纹，通过声纹鉴定技术进行检验对比，迅速认定罪犯，为侦查破案提供可靠的证据。
    国内很多主流互联网公司都在研究声纹识别相关技术，如科大讯飞、腾讯等。
    看看他们的专利研究啥。

    01声纹识别的基础
    每一个人的声音都有独特的纹路。
    声纹识别的理论基础是每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。

    这种独特的特征主要由两个因素决定，第一个是声腔的尺寸，具体包括咽喉、鼻腔和口腔等，这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。
    因此不同的人虽然说同样的话，但是声音的频率分布是不同的，听起来有的低沉有的洪亮。
    每个人的发声腔都是不同的。
    第二个决定声音特征的因素是发声器官被操纵的方式，发声器官包括唇、齿、舌、软腭及腭肌肉等，他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话的过程中，通过模拟周围不同人的说话方式，就会逐渐形成自己的声纹特征。
    音高、音强、音长、音色在语言学中被称为语音“四要素”，这些因素又可分解成九十余种特征。这些特征表现了不同声音的不同波长、频率、强度、节奏。
    工程师制造的语图仪等电子设备可以把声波的变化转换成电讯号的强度、波长、频率、节奏变化，仪器又把这些电讯号的变化绘制成波谱图形，就成了声纹图。
    因此，理论上来说，声纹就像指纹一样，很少会有两个人具有相同的声纹图。

    02常用的声纹识别办法
    实际上，声纹识别最初就是美国人为了提高破案率而开发的，电话电报公司的贝尔实验室研究和发明了“音响光谱图象显示器”，把声波用光谱图象加以显示，之后开始培训警官，推广相关技术，以应付猖獗的绑架、恐吓案。
    那个年代，绑架分子动不动用电话恐吓人交赎金。
    目前来看，声纹识别常用的方法包括模板匹配法、最近邻方法、神经元网络方法，VQ聚类法等。
    在行业内大名鼎鼎的语谱图是声音信号的一种图像化的表示方式，它的横轴代表时间，纵轴代表频率，语音在各个频率点的幅值大小用颜色来区分。说话人的声音的基频及谐频在语谱图上表现为一条一条的亮线，再通过不同的处理手段就可以得到不同语谱图之间的相似度，最终达到声纹识别的目的。
    那个年代没有如今的数字技术，人们可视化研究语音数据的方法是把数据通过频率滤波器，然后各个频率的数据驱动相应的类似针式打印的设备按频率高低顺序记录在一卷纸上，信号的强弱由记录在纸上的灰度来表示，这就是语谱图的由来。
    目前公安部声纹鉴别就采用类似方法，而且语谱图还是用的灰度来表示。主要抽取说话人声音的基音频谱及包络、基音帧的能量、基音共振峰的出现频率及其轨迹等参数表征，然后再与模式识别等传统匹配方法结合进行声纹识别。
    美国和国内都有不少企业生产声纹识别的设备，公安部为采购这些设备还正式颁布了《安防声纹识别应用系统技术要求》的行业标准。
    但是这种方法是一种静态检测的方法，存在很大的弊端，实时性不好，动态检测声纹的需求实际上更大。
    受各种不确定性因素的制约，当前说话人识别系统仍难言可靠！这些不确定性因素包括非限定的自由文本、各种各样的传输信道、复杂多变的背景噪音、说话人自身的生理波动等等。这些不确定性因素对说话人识别系统提出了巨大的挑战。
    03当下声纹识别主流算法
    技术社区的大牛曾对声纹识别算法的演进做了概述，早年声纹识别技术很简陋，靠语谱图人工进行一一比对检测，如今AI技术发展迅速，人工手动的操作方式早被淘汰，靠AI来识别。
    主流声纹识别算法转述如下：
    从1995年开始，混合高斯模型的统计模式识别技术被引入说话人识别，2000年Reynolds提出的GMM－UBM模型成为声纹识别领域最重要的基石。
    2008年kenny提出联合因子分析（JFA）将GMM均值超矢量空间划分为本征空间，信道空间，残差空间，分别对说话人和信道空间建模。
    由于JFA进行信道补偿时不可避免的包含说话人信息，并且存在空间掩盖和空间重叠的问题，因此不能对说话人和信道进行准确建模和区分，于是在2010年Najim Dehak等人提出使用全局差异空间代替本征空间和信道空间，即I－vector对说话人进行建模。
    随着数据和计算资源的丰富，基于深度学习的声纹识别带来了性能的进一步提升。2018年X－vector在D－vector的基础进行改进，通过在帧级特征上池化映射获得可以表示说话人特性的段级向量，成为state－of－the－art的框架。基于X－vector说话人建模的声纹识别系统主要包括语音特征提取，说话人建模和后端分类器进行信道补偿及似然度打分三个部分。
    特征方面算法：
    MFCC／PLP／FBank等短时频谱特征；
    D－vector （谷歌2014年提的）；
    Deep feature ／ Bottleneck feature ／Tandem feature （三者不是并行关系，可以搜关键词查看相关论文）；
    模型方面算法：
    GMM－UBM；
    JFA （Joint Factor Analysis）；
    GMM－UBM i－vector；
    Supervised－UBM i－vector；
    DNN i－vector （2014年微软Yun Lei等人提的）；
    得分方面算法：
    SVM（早期与GMM－UBM一起使用最为后端分类器）；
    Cosine Distance （CDS）；
    LDA；
    PLDA；
    当然，随着神经网络的发展和训练数据的庞大，谷歌、微软和百度等公司使用end－to－end的方法集这三个方面于一体，效果也还可以。
    除了以上主流技术，还有以下几种：
    BNF特征，ivector＋PLDA／CDS、GMM＋SVM、d－vector，ivevtor－plda 还有一些d－vector对数据量要求比较大的，主流的还是用nn去提取特征。
    04科大讯飞、腾讯在声纹识别相关专利
    国内哪些机构在研究声纹识别技术？
    在德高行全球专利数据库中，检索了相关专利，专利申请人排名如下：
    申请人
    专利数量
    平安科技（深圳）有限公司
    122
    厦门快商通科技股份有限公司
    54
    腾讯科技（深圳）有限公司
    40
    百度在线网络技术（北京）有限公司
    38
    华为技术有限公司
    37
    珠海格力电器股份有限公司
    34
    阿里巴巴集团控股有限公司
    33
    深圳壹账通智能科技有限公司
    30
    芋头科技（杭州）有限公司
    28
    OPPO广东移动通信有限公司
    27
    中国工商银行股份有限公司
    27
    中国银行股份有限公司
    25
    北京百度网讯科技有限公司
    25
    广州势必可赢网络科技有限公司
    25
    （该表不含子公司）
    金融银行业位居前列，可以理解，在认证交易方面，银行系统从来下重金研发，毕竟，支付转账汇款最核心的操作就是确认是否为当事人的真实交易用途。
    科大讯飞未列入靠前的名单，作为一家语音识别技术国内一流的公司，细分支声纹识别专利量排名靠后，出乎知情郎的意料。
    不过，查了科大讯飞及其子公司的专利，人家有46件专利，也不算少。
    知情郎比较关注腾讯的声纹识别专利，因为在技术应用广度上，微信10亿人的受众，微信所采用的的声纹识别必然是最靠谱，他每天都要应对日活亿级强度的检测。

    如果腾讯采用的声纹识别技术不成熟，让微信用户无法通过声纹解锁微信，投诉潮估计会瞬间压垮人家的客服部。
    下为腾讯最新8件声纹识别相关专利：
    序号
    标题
    公开号
    解决的技术问题
    1
    一种声纹信息处理方法、装置、电子设备及存储介质
    CN115171660A
    实时更新声纹嵌入码。可以提高利用声纹嵌入码进行声纹识别的准确性，使用户获得更好的使用体验。
    2
    一种情绪类别确定方法、装置、设备及可读存储介质
    CN115171731A
    从声纹和语义信息中，提炼特征，确定该目标语音的目标情绪类别，提高情绪类别确定的准确性。
    3
    一种语音验证处理的方法以及相关装置
    CN114648978A
    将声纹验证处理的过程部署在声纹验证服务器中进行，而不是部署在终端设备中，使得该语音验证的方法能够有效地摆脱终端设备的硬件资源限制，使得终端设备能够支持更多的说话对象进行语音录入，进而实现对更多的说话对象的识别。
    4
    声纹识别方法、装置、介质及设备
    CN114333844A
    本申请提供的技术方案可以在不影响原有声纹模型性能的基础上，对基于对抗样本的白盒攻击或黑盒攻击实施有效的防御和检测，从而提高了声纹识别的安全性和可靠性。
    5
    一种基于音视频分离的智能拆条方法
    CN111586494B
    传统的长视频拆条方式，需要投入大量的人工进行手动预览拆分视频，耗时耗力，无法在短时间内批量地深度挖掘同质同类内容并验证其重复性，对精准的用户传播造成了很大阻碍。本专利提供一种基于音视频分离的智能拆条方法。
    6
    音频处理方法、装置、存储介质及计算机设备
    CN113763962A
    该方法可以根据音频数据中声纹信息之间的差别确定目标子音频数据，再对目标子音频数据进行评分。如此可以提高音频数据处理的准确性，进而提升了对音频数据评分的准确性。
    7
    语音识别方法和装置、存储介质
    CN112562681B
    在复杂的声音环境中降低干扰音频的干扰是音频处理中重的要研究方向。该方案提供了至少一种解决复杂的声音环境中语音识别准确率较低的技术问题。
    8
    一种声纹识别的方法、模型训练的方法以及服务器
    CN110289003B
    利用归一化指数函数和中心化函数对声纹识别模型进行联合优化，能够减少来自同一说话人深度特征之间的类内变化。采用两种函数同时监督和学习声纹识别模型，可使深度特征具有更好的区分性，从而提升识别性能。
    05经典专利解读
    特别要提下该专利：声纹识别方法、装置、介质及设备（CN114333844A），这是专门防御检测攻击者造假合成声音的鉴伪技术。
    简答说，用AI检测对抗AI合成声音。

    事实上，目前基于深度神经网络的声纹识别已经取得了性能非常不错的识别效果，但是未受保护的声纹识别系统具有极大的安全隐患，可能受到录音重放攻击、语音合成攻击、语音转换攻击、对抗样本攻击等问题。其中关于对抗样本攻击的防御和检测技术仍处于起步阶段，目前已有的方案主要是进行对抗训练，或是引入新的网络结构进行主动防御，这些方法需要更多的计算资源，或是增加模型的参数量，且对抗防御的效果还有很大的提升空间。
    一个典型的声纹识别系统的工作流程主要涉及两个步骤：“声纹预留（注册）”和“声纹验证（测试）”。预留是将用户语音转化成为说话人表征向量并进行存储，声纹验证判断一段未知的测试语音是否来自指定说话人，系统将测试语音转化成为说话人表征向量同时与预留下的用户语音进行打分比对，如果大于事先设置好的阈值，则判定属于同一个说话人；反之如果打分小于阈值，则判定不属于同一个说话人。
    在用户完成注册后，在进行声纹验证步骤中，声纹识别可能存在录音重放攻击、语音合成攻击、语音转换攻击、对抗样本攻击等安全相关问题。录音重放攻击、语音合成攻击、语音转换攻击是二次录音或是合成转换出的声音，由于设备的频响或是合成模型性能不足，造成用于攻击的语音数据中一些频域上存在缺失和扭曲，与真人说话会有不同的特性，通过大量的正负样本学习，计算机能够轻易分辨出是语音是录音合成还是真人所说。
    对抗样本攻击特别是在白盒情况的攻击相比于以上三种攻击更难检测和防御。到目前为止，深度学习模型易受对抗样本攻击的原因仍然是一个开放的研究课题，缺乏完备的理论体系，这个问题也制约着深度学习的进一步发展。目前大部分关于对抗样本的研究都集中在计算机视觉领域。由于语音信号属于非平稳信号，关于声纹识别的对抗样本攻击和防御的研究仍处于起步阶段。特别是在对抗样本攻击的防御上，目前还没有很多完善的与声纹相关的研究和解决方案。
    目前，针对对抗攻击的防御方法主要分为以下三种方案：
    1．对抗训练：在每次模型训练过程中，通过在训练集中注入对抗样本对模型进行再训练；
    2．对输入数据进行预处理：对输入进行变换处理，使攻击者难以计算模型的梯度，从而达到防御对抗攻击的目的；
    3．对模型进行蒸馏：使用知识蒸馏的方法降低网络梯度的大小，提高发现小幅度扰动对抗样本的能力。
    然而上述方案中，存在如下缺点：
    1．对抗训练需要在模型训练的过程中生成对抗样本，随后把生成的对抗样本作为输入数据训练原有的网络。这两个过程都需要耗费大量的计算资源和计算时间，并且最终得到的训练模型大多只能针对特定的对抗样本算法进行防御，如果攻击者修改对抗攻击算法，将会使得模型防御能力大大降低。
    2．目前对输入数据进行预处理的防御方法大多采用生成的神经网络模型重构输入数据的方法，例如基于变分自编码器（Variational Auto－Encoder，VAE）或对抗生成神经网络（Generative Adversarial Networks，GAN）对对抗样本进行去噪处理，使得去噪模型输出的数据结果更加接近于原始无噪声的数据。这些方法需要引入新的神经网络，提高了声纹识别系统的参数量；并且声纹识别系统在推理的过程中需要耗费更多的计算时间在原始音频的去噪处理上，且该方法很难抵御白盒攻击。
    3．对模型进行蒸馏和正则化可能会很大程度的损害声纹模型的识别性能与鲁棒性，让原本在没有收到攻击的真实样本下的识别性能降低。
    4．目前的声纹识别系统关于对抗样本的防御策略大多都是对计算机视觉研究上的借鉴和迁移，相比于图像信号，语音信号属于非平稳信号，声纹识别系统的对抗样本攻防御还暂时处在起步阶段。这些在图像上方法不一定适用于语音数据。
    该专利工程师为了提升声纹识别的可靠性和安全性，专门开发了一套自己的防御算法，在应用于对抗防御和检测中时，本申请提供的技术方案在输入预处理阶段进行改进，无需对原有的声纹模型进行对抗训练，也无需增加用于对抗样本攻击的防御模块，只需在原有的声纹验证阶段增加对待识别语音的转换处理和对多个声纹验证结果的判决处理，整体方案简单易行，具有较高的通用性；且本申请提供的技术方案可以在不影响原有声纹模型性能的基础上，对基于对抗样本的白盒攻击或黑盒攻击实施有效的防御和检测，从而提高了声纹识别的安全性和可靠性。
    值得一读的专利！
    【转载请注明德高行·知情郎】