基于毫米波雷达的物联网智能家居扬声器安全验证

2021-10-15 14:53:42

扬声器/用户验证一直是确保物联网智能家居安全访问和建立更多安全性的一项根本任务。传统的扬声器验证方法是基于从音频信号中提取的语音生物特征,然而这种语音生物识别技术在冒名顶替者攻击下很脆弱。由此,基于其他生物识别技术的扬声器验证系统引起了相当多的关注,在以往的相关研究中,有通过视频提取LM 信号和利用喉咙麦克风获取喉咙振动信息的方式,来进行语音活体检测和扬声器验证,但这些方式都存在精度有限或使用不便等相关缺陷。


2020年9月10日,Yudi Dong、Yu-Dong Yao团队在IEEE Internet of Things Journal期刊上发表了题为《Secure mmWave-Radar-Based Speaker Verification for IoT Smart Home》的文章。该文提出了一种使用毫米波雷达来捕获声带振动 (VCV) 和唇部运动 (LM) 作为识别说话者的多模态生物识别技术,以此作为一种验证物联网智能家居扬声器的安全方法。


原文信息:

Secure mmWave-Radar-Based Speaker Verification for IoT Smart Home


期刊信息:

IEEE Internet of Things Journal ( Volume: 8, Issue: 5, March1, 1 2021)


论文创新点

提出了新的基于非接触式 VCV 的生物识别技术,并利用基于 LM 的生物识别技术作为附加功能,能够更加有效地应对和检测各种欺骗攻击,可以实现较高的验证精度和系统安全性。


实验方法

研究流程:

此研究流程主要包括数据集构建、数据预处理和神经网络模型构建两部分。

图1. 研究流程图


  • 数据集构建

六名受试者参与了实验。 其中五个是真人,另一个是预先录制的声音。其中一个真人受试者被认为是合法用户,其他所有主体都是未经授权的用户或攻击者。在每一轮中,每个受试者将使用相同的实验设置阅读或播放20个句子以收集一个数据集。在评估中,随机选取20个数据集进行训练,其余10个用于测试。


  • 数据预处理

数据处理算法主要由三个模块组成。一是雷达信号处理模块。系统从接收器获取差拍信号,使用 FFT 测量相位变化。然后分别通过相位展开和相位差来展开和增强相位值。通过运动影响消除算法对相位差值进行处理以消除身体运动影响和环境噪声。


图2. 雷达信号处理步骤。(a) 差拍信号的 FFT 结果幅度。(b) 范围选择。(c) 相萃取。(d) 相位展开。(e) 相位差。


接下来,在第二个模块中,处理过的雷达信号通过起始检测和偏移检测进行分割。通过识别每个片段的持续时间,选出与讲话相关的片段。


图3. 信号分割示意图


最后,在第三个模块中,系统使用基于混叠分析的 IIR 滤波器滤除 VCV 信号,然后使用梅尔频率倒谱系数(MFCC)将其重建为生物特征。此外,LM 信号通过使用 IIR 滤波器提取并通过模糊 WPT 重构。


图4. VCV 信号和特征的可视化


图5. LM 信号和特征的可视化


  • 神经网络模型构建

在用于扬声器验证的神经网络的构建中,系统使用来自 VCV 信号的基于 MFCC 的特征和来自 LM 信号的基于模糊 WPT 的特征来构建合法用户的配置文件,并训练一个深度 CNN 来识别扬声器。一旦在系统中检测到未知对象的 VCV 和 LM 相关信号,CNN 就会是否为合法用户。

此外,深度学习模型容易出现过拟合问题,尤其是在样本数量有限的情况下。该文从以下三个方面解决了这个问题:

交叉验证方案:交叉验证是防止机器/深度学习过度拟合的有力措施。该文在基于 CNN 的分类器中使用了五重交叉验证方案。

特征提取:在训练样本数量有限的情况下,深度学习特征可能不够具有代表性,从而可能导致过拟合。该文手动提取了两个不同的特征(即基于 MFFC 的特征和基于 WPT 的特征),这有助于防止过度拟合。

数据多样性:该文在实验中进行了30 轮实验来收集数据,同时保证训练数据和测试数据来自不同的收集日期。通过增加数据多样性在很大程度上避免了训练过程中的过度拟合。

图6. 深度 CNN 的架构


评估指标:

采用三个指标:包括准确性、接收器操作特性 (ROC) 曲线和 EER 来评估系统的性能。

ROC 曲线说明了二元分类器系统在其鉴别阈值变化时的性能。当 ROC 曲线覆盖更大的区域时,系统被认为具有更好的性能。

EER 的值表明错误接受的比例等于错误拒绝的比例。EER 值越低,生物识别系统的性能越好。


实验结果

检测用户使用性能:

    从图7可以看到,使用多模态生物识别技术的系统具有最佳性能。声带生物识别方法的表现不如多模态生物识别方法,但还是令人满意的,但如果只在系统中使用唇部生物识别技术,性能下降会很严重。同时,多模态生物识别也具有最高的准确度。结果证明了系统在验证真人说话者方面的有效性。此外,文章中提出的将声带生物识别与唇部生物识别相结合,可以获得更好的性能。

图7. 扬声器验证的系统性能。(a) ROC 曲线。(b)EER。(c) 准确性。


从图8中可以看出,与图7相似,多模态生物识别方法均具有最优的性能。结果表明,文章提出的多模态生物识别技术在检测重放攻击方面非常有效,远优于传统的基于语音的方法。


图8. 检测重放攻击的系统性能。(a) ROC 曲线。(b)EER。(c) 准确性。


展望

研究中,LM的频率在0.2~3Hz之间,容易与呼吸、心跳等人体的一些动作重叠,这是造成唇部生物识别技术不如声带生物识别技术的原因之一。为了解决这个问题,可以在分类器中采用深度去噪自编码器来减少输入的噪声和谐波。此外,还可以使用对抗网络对噪声进行建模,并与对抗网络联合训练系统的分类器,这可以对抗各种噪声。在此研究中,使用的是来自单个 TX-RX 天线对的数据,可以尝试使用多个天线的数据融合来提高系统性能。