随笔,从灯泡振动中恢复声音的侧信道攻击

本文中介绍了Lamphone,是一种用于从台灯灯泡中恢复声音的光学侧信道攻击,在 COVID-19 疫情期间,这种灯通常用于家庭办公室。本研究展示了灯泡表面气压的波动,它响应声音而发生并导致灯泡非常轻微的振动(毫度振动),可以被窃听者利用来被动地从外部恢复语音,并使用未提供有关其应用指示的设备。通过光电传感器分析灯泡对声音的响应,并学习如何将音频信号与光信号隔离开来。本研究将 Lamphone 与其他相关方法进行了比较,结果表明,与这些方法相比Lamphone可以以高质量和更低的音量恢复声音。最后展示了窃听者可以应用Lamphone,以便在受害者坐在/工作在 35 米距离处的桌子上,该桌子上装有带灯泡的台灯时,可以恢复虚拟会议声级的语音,并且具有相当的清晰度。

0x01 Introduction

本研究确定了在不安全的家庭环境中举行的个人和商务会议的新风险。家庭办公室和卧室中常用的台灯(更具体地说是台灯中使用的灯泡)可以被窃听者利用,从外部被动地恢复 75 dB 水平的可理解的语音,以及使用与间谍活动无关且未提供有关其应用的指示的设备。Lamphone是一种新颖的侧信道攻击,能够通过针对台灯灯泡的光电传感器以光学方式恢复语音;当声波撞击灯泡表面时,自然会发生气压波动,这种灯泡会因气压波动而振动。本研究解释了如何利用灯泡对声音(毫度振动)的响应来恢复声音,并为能够从如此小的振动中恢复声音的系统的灵敏度规格建立了一个标准。然后评估了灯泡对声音的响应,确定影响恢复信号的因素,并描述恢复信号的行为。根据研究结果开发了一种光声转换 (OAT,Optical-Acoustic Transformation),以将音频信号与通过将电光传感器指向台灯灯泡而获得的光信号隔离开来。最后评估了 Lamphone 在恢复声音任务中的表现,并表明 Lamphone 能够在 35 米的距离内恢复虚拟会议声级的语音音频,并且具有相当的清晰度。

0x02 Threat Model

假设:假设这次攻击的目标是位于他/她家中的人,在电话或虚拟会议中交换/共享敏感信息。假设受害者从一个办公室/房间(例如,家庭办公室或卧室)中拨打电话/参加会议,该办公室/房间距离灯泡最多 50 厘米,对于在家庭办公室中坐在带台灯的标准办公桌前,或在卧室中坐在带台灯的床头柜旁边的个人而言,这是一个合理的距离。研究认为窃听者是一个恶意实体,有兴趣通过执行 Lamphone攻击从受害者的对话中恢复语音。窃听者可以将恢复的信息用于各种恶意目的,包括间谍、勒索、商业情报收集等。假设窃听者位于目标房间35米范围内。窃听者可能是:

1)位于相邻建筑物的房间中的人(例如,一个爱管闲事的邻居);

2)附近汽车中的人(例如,私人侦探)。

由于在不安全的家庭环境中举行的个人和商务会议数量增加,这种威胁在 COVID-19 期间很有可能发生。

组件:Lamphone 攻击由以下主要组件组成:

1) 望远镜 –该设备用于将视野从远处聚焦在灯泡上;

2) 光电传感器 –该传感器安装在望远镜上,由将光转换为电流的光电二极管(一种半导体器件)组成。当光子在光电二极管中被吸收时产生电流;

3) 声音恢复系统 –该系统接收光信号作为输入并输出恢复的声音信号。

窃听者可以使用专用硬件(例如,使用电容器、电阻器等)来实现这样的系统。或者,窃听者可以使用 ADC 对光电传感器进行采样,并使用笔记本电脑上运行的声音恢复算法处理数据。在本研究中使用后一种数字方法。

物理现象:在目标房间进行的对话会产生声音 snd(t),从而导致灯泡表面的气压波动,从而导致灯泡振动。结果,由窃听者通过望远镜指向振动灯泡的静态光电传感器捕捉到由微小灯泡振动引起的光强度随时间的变化。光强度的时间序列,与撞击灯泡表面并由附近的语音/声音产生的气压相关,代表了受害者房间内的语音/声音的调制。电光传感器模拟输出的变化由 ADC 采样为数字光信号 opt(t)。然后窃听者使用光声变换 (OAT) 将光信号 opt(t) 转换为声信号 snd*(t)。下图概述了威胁模型。

通常,麦克风依赖于三个组件(隔膜、换能器和 ADC)。在Lamphone 中,灯泡用作隔膜,当声波撞击其表面时,它会振动。用于将隔膜的振动转换为电能的换能器由灯泡(在目标房间中)发出的光和产生相关电流的电光传感器(由窃听者使用)组成。 ADC 用于将电信号转换为数字信号(如在标准麦克风中)。

意义:Lamphone 相对于其他研究中提出的相关方法的意义在于:

1)是一种外部方法,它依赖于电光传感器和灯泡之间的视线(与其他方法相反,要求窃听者破坏位于受害者物理附近的设备,以获取数据并将其泄露),

2)依赖在无源且不提供任何关于其使用的指示的光电传感器上(与激光麦克风相反),

3)由不相关的硬件(ADC、光电二极管)组成通过间谍(与激光麦克风相反),

4)恢复可理解的音频信号,因此它不限于对出现在预编译字典中的孤立词进行分类,

5)能够在虚拟会议的 75 dB 声级下恢复语音。

与本研究最相关的两种方法是可视麦克风(visual microphone)和激光麦克风(laser microphone)。两种方法都使用光学传感器恢复声音:激光麦克风以标准声级恢复语音,但是它使用有源光学收发器来完成这项任务(这表明它的使用并被认为是间谍设备,这限制了它的可用性)。可视麦克风通过使用无源高频摄像机(与间谍无关的设备)恢复语音,但仅限于以高音量(平均音量为 95 dB)恢复语音,这超出了虚拟会议的音量(此类会议的平均音量为 75 dB)。

Lamphone 结合了这两种方法的优点:Lamphone 使用无源光电二极管(不被视为间谍设备或指示其使用),并且可以有效地恢复典型虚拟会议声级的语音。此外,Lamphone 在计算上比可视麦克风更轻。在Lamphone 中,ADC 用于通过对光电二极管进行采样来创建光信号(时间序列),该光电二极管用于将光转换为与传感器捕获的光量相关的电(以及由于灯泡的微小而变化)振动。相比之下,可视麦克风通过分析视频流并提取与对象随时间的振动相关的时间序列来提取光信号。光学信号(时间序列)是通过将高频摄像机获得的每一帧(由对三个高清分辨率矩阵进行的计算组成的操作)及时转换为单个值(标量)来创建的。由于通过每秒将 2200 帧转换为 2200 个标量来获得所需的 2200 Hz 频率,因此这需要额外的计算阶段以创建光信号。因此,可视麦克风比 Lamphone 需要更多的计算资源。

0x03 Bulbs as Microphones

A. 物理分析

首先测量声波撞击灯泡表面时灯泡的振动,并为能够从这些振动中恢复声音的系统的灵敏度规格建立标准。

(1)测量灯泡的振动

为了测量灯泡对声音的响应,检查了在灯泡附近产生的声音如何影响灯泡的三维振动(如下图所示)。

实验装置:将陀螺仪(MPU-6050 GY-521)连接到 E14 LED 灯泡(10 瓦)的底部;在这个实验过程中灯泡没有被点亮(参见下图)。使用 Raspberry Pi 3 以 700 Hz 对陀螺仪进行采样。将罗技 Z533 扬声器放在灯泡前面(几厘米远),并以两个音量(60 dB 和 70 dB)从扬声器播放各种正弦波(150、200、250、300、350 Hz)。在播放正弦波时从陀螺仪获得测量值。

结果:根据从陀螺仪获得的测量结果,计算了 θ 和 φ 的平均峰峰值差(以度为单位,如下图所示)。本研究计算了峰值,因为它们反映了灯泡振动时到达的最远和最近点之间的距离。平均峰峰差是通过计算每 700 次连续测量之间的峰差(从一秒的采样中收集)并平均结果来计算的。下图显示了作为平均峰值差函数的频率响应,显示的结果揭示了三个见解。灯泡角度的平均峰值差为:

1)非常小的 2-35 毫度,

2)随着体积的增加而增加,

3)随着频率的变化而变化。

基于已知的球坐标系公式,计算了 3D 矢量 (x,y,z),它表示每个轴上的峰间振动。计算了这个向量和初始位置向量之间的欧几里得距离,如图所示,声音引起了 17-55 微米的运动。

(2)捕捉光学变化

现在解释窃听者如何根据灯泡的振动确定恢复声音所需设备的灵敏度。上图中的图表确立了恢复声音的标准:窃听系统(由光电传感器、望远镜和 ADC 组成)必须足够灵敏,以捕捉由灯泡振动 17 引起的微小光学差异-55 微米。为了演示窃听者如何确定满足上述标准所需的设备的灵敏度,进行了另一个实验。

实验装置:将望远镜(透镜直径为 25 厘米)对准 12W E14 LED 灯泡(如上图所示)。在望远镜上安装了一个光电传感器(Thorlabs PDA100A2,它是一种放大的可切换增益光传感器,由一个光电二极管组成)。电压是使用 24 位 ADC NI-9234 卡从光电传感器获得的,并在编写的 LabVIEW 脚本中进行处理。光电传感器的内部增益设置为 50 dB。将望远镜放置在距灯泡不同的距离(1、2、3、4、6、7、9 米)处,并测量每个距离从光电传感器获得的电压。

结果:该实验的结果如上图所示。这些结果用于计算每两个连续点之间的线性方程。基于线性方程计算了 E14 灯泡在 150-350 Hz 频谱中每个预期运动的预期电压,声级为 70 dB(基于下图中的结果)。每次运动的线性方程和预期电压如下表所示。

现在解释如何使用前表中的数据来确定可以从针对 70 dB 声级获得的光学测量中恢复哪些频率。 ADC 的灵敏度可以使用以下公式计算:R/(2^B-1) ,其中 R 表示 ADC 输出的动态范围,B 表示输出的分辨率(以位为单位)。例如,输入电压范围为 [-5,5] 的 24 位 ADC(例如,像实验中使用的卡)提供的灵敏度为:10/(2^24 -1) ≈ 0.6 µV。

分析上表,发现灵敏度为 0.6 µV 的 ADC 足以恢复 9 米距离内的整个频谱(150-350 Hz),因为从该距离内灯泡的最小振动(17 微米)是预计会产生 2.7 µV 的差异(对于 150 Hz 的频率和 9 米的距离)。这样的 ADC 可以提供从任何距离恢复整个频谱所需的灵敏度。然而,如果 ADC 具有 4 µV 的较低灵敏度,则只有部分频谱可以恢复到超出一定距离(例如,超过三米),因为在 150-250 Hz 的频率范围内,灯泡的振动预计会产值低于 4 µV。上表中的绿色单元格表示可以通过两个 ADC 提供的灵敏度(灵敏度为 0.6 µV 和 4 µV)恢复的频率。表中的黄色单元格表示使用中的 ADC 无法恢复的频率。从表中可以看出,整个测量光谱可以通过以下方式恢复:(1) 一个 ADC,它在所有距离上提供 0.6 µV 的灵敏度,以及 (2) 一个 ADC,它在最远 3 米的距离内提供 4 µV 的灵敏度。该实验和这些计算可用于确定所需的 ADC,因为电光传感器用于捕获来自灯泡的光。

B. 探索声音的光学响应

本节介绍的实验旨在评估灯泡对声音的响应。上一小节中描述的实验设置也用于整个实验集。

(1)在静默中表征光信号

首先学习没有声音播放时光信号的特性。

实验设置:当实验室没有播放声音时,从光电传感器获得了 5 秒的光学测量结果。

结果:从光学测量中提取的 FFT 图如下图所示。可以看出,FFT 在 100 Hz 及其谐波(200 Hz、300 Hz 等)处出现峰值,发生在 100 Hz 的光学现象(由电光传感器捕获)是电网谐波的结果。大多数电子设备都使用从交流电转换而来的直流电压。二极管电桥集成到电气设备中,它翻转正弦的负半部分,将基频从 50 Hz 加倍至 100 Hz。因此,LED 每秒改变其强度 100 次。这些频率强烈影响光信号,而不是想要恢复的声音的结果。从这个实验中得出结论,需要过滤。

(2)灯泡对单个正弦波的响应

接下来展示了声音对附近灯泡的影响,可以通过在频域中通过电光传感器分析灯泡发出的光来恢复声音。

实验设置:在这个实验中使用了一个以 518 Hz 的频率播放正弦波的汽笛。将光电传感器指向灯泡并获得光学测量值。将汽笛放在离灯泡 5 厘米远的地方并操作汽笛,同时获得传感器测量值。

结果:下图显示了使用汽笛之前和使用汽笛时两秒的光学测量结果创建的两个 FFT 图。在 518 Hz 附近添加到频域的峰值表明,汽笛产生的声音会影响通过光电传感器获得的光学测量结果。在这个实验中专门使用了一种不会产生电磁副作用(除了声音)的装置(汽笛),以证明得到的结果是由空气压力的波动引起的。灯泡的表面(而不是其他任何东西)。

(3)灯泡对 100-2000Hz 声音的响应

在接下来的实验中测试了台灯中的灯泡对各种频率的响应。这些实验是使用放置在专用支架上的灯泡前面的扬声器进行的。

实验设置:创建了一个由各种正弦波(120、170、220、…. 1020 Hz)组成的音频文件,每个正弦波播放两秒钟。通过灯泡附近的扬声器以两个音量(60 dB 和 70 dB)播放音频文件,并通过光电传感器获得光学信号。

结果:下图显示了从台灯灯泡获得的 SNR。相对于原始信号分析信号揭示了两个见解:(1)恢复信号的响应随着频率的增加而降低,直到其功率达到与噪声相同的水平。 (2) SNR随着音量的增加而提高。从这个实验中得出结论,必须使用语音增强和去噪技术来提高 SNR,并加强更高频率的响应,以便通过使用均衡器来恢复它们。

C. 解释物理现象

本节进行的实验表明,光电传感器捕获的光强度随灯泡和光电传感器之间的距离而变化。灯泡和静态光电传感器之间距离的变化是由撞击灯泡表面并导致灯泡振动的声波引起的。结果,光电传感器输出电压电平(用作光学测量),调制灯泡附近的声音,并产生一些额外的副作用。

0x04 Optical Acoustical Transformation

在本节中利用前文中的发现并提出光声变换 (OAT),用它来从针对灯泡的电光传感器获得的光信号中恢复音频信号。将 snd(t) 视为扬声器在受害者房间内播放的音频,将 opt(t) 视为通过指向桌面/台灯的光电传感器获得的光信号,以及 snd*(t ) 作为使用 OAT 从 opt(t) 恢复的音频信号。 OAT 包括以下步骤:

1) 过滤副作用:如前文所示,影响光信号 opt(t) 的因素不是播放声音的结果(例如,添加到频谱中的峰值)是灯泡的照明频率及其谐波(100 Hz、200 Hz 等)的结果。使用带阻滤波器过滤这些频率。此外,由于语音频谱的较低范围约为 100 Hz,因此使用高通滤波器(>100 Hz)来消除添加到光信号中的任何不是声音结果的现象。

2) 语音增强:语音增强是通过提高语音信号的清晰度和整体感知质量来优化语音质量。通过将 opt(t) 的值标准化到 [-1,1] 的范围来增强语音信号。

3)降噪:降噪是从信号中去除噪声以优化其质量的过程。通过应用频谱减法来降低噪声,这是最早提出的用于对单通道语音进行去噪的技术之一。频谱减法被认为是一种自适应技术,即它表征来自信号的噪声。当没有关于噪声分布的先验知识或当噪声分布在不同设置之间发生变化时,自适应技术在从信号中去除噪声方面非常有效。

4)均衡器:均衡是调整电子信号内频率分量之间平衡的过程。使用均衡器来放大弱频率的响应。

当变换用于恢复任意句子时,OAT 的每一步对恢复信号的影响如上图所示。可以看出,原始光信号非常嘈杂,但是每一步的应用显着提高了信噪比。下图的算法 1是 OAT 从光学测量中恢复音频的步骤的实现。

本研究中用于恢复语音的技术在语音处理领域非常流行。使用它们的原因如下:

1)这些技术依赖于从单个通道获得的语音信号;如果屋檐滴管具有使用其他传感器对灯泡进行采样的能力,从而通过多个通道获得多个信号,也可以采用其他方法来恢复优化的信号;

2)这些技术不需要任何事先的数据收集来创建模型;新颖的语音处理方法使用神经网络来优化嘈杂通道中的语音质量,但是这种神经网络需要大量数据用于训练阶段以创建稳健的模型,窃听者可能更愿意避免这种要求;

3)该技术可以应用于实时应用,因此可以将获得的光信号以最小的延迟转换为音频;

4)这些技术(例如,光谱减法和均衡)可以克服由不同噪声水平引起的光信号 SNR 水平的变化。

0x05 Evaluation

在本节中根据从台灯灯泡中恢复声音的能力来评估攻击的性能。首先检查环境因素和各种类型的灯泡和灯具对恢复声音的 SNR 的影响,继续将 Lamphone 的性能与实验室设置中的相关工作进行比较。最后,研究了灯泡与受害者之间的距离以及光电传感器与灯泡之间的距离对Lamphone性能的影响。

读者可以通过分析提取的图形(频谱图和信噪比)直观地评估恢复声音的质量,通过在线收听恢复的音频信号来定性地评估恢复声音的质量(https://youtu.be/kfdXhX8hWokhttps://youtu.be/86CDP9QP1Bw),并根据音频处理社区用来比较恢复信号与其原始信号的指标进行定量:

1) 可理解性 –衡量在给定条件下语音的可理解程度。清晰度受语音信号的水平和质量,以及背景噪声和混响的类型和水平的影响。衡量度量值介于 [0,1] 之间。更高的清晰度表示更好的音质。

2) 对数似然比 (LLR) –一种衡量恢复信号的频谱形状与原始干净信号的频谱形状匹配程度的指标。该指标多年来一直用于语音研究,以比较语音信号。较低的 LLR 表示更好的音质。

3) 加权频谱斜率 (WSS) –一种距离度量,用于计算每个频段中频谱斜率之间的加权差。频谱斜率是以分贝为单位的相邻频谱幅度之间的差异。较低的 WSS 表示更好的语音质量。

4) NIST Speech SNR (NIST-SNR) –语音信噪比,定义为连续 20 毫秒内估计的语音功率和噪声功率之间的对数算术比。 NIST-SNR 越高表示音质越好。

在本节进行和描述的所有实验中,使用以下设备和配置来恢复声音:将望远镜(25 cm 透镜直径)对准灯泡,在望远镜上安装了一个光电传感器(Thor labs PDA100A2)。光电传感器被配置为饱和前的最高增益水平。用两个不同的 ADC 对光电传感器的输出(与光强度相关的电压)进行采样。 24 位 ADC NI-9234 卡、PXI-1082 测量系统(带有 24 位 ADC 的 PXI 声音和振动模块 PXI-4498)用于优化 SNR(其噪声水平降低了几乎两个数量级)与 NI-9234 相比的数量级。使用放置在专用支架上的罗技 Z200 扬声器来产生声音。数据是在编写的 LabVIEW 脚本中处理的。 ADC 的采样频率配置为 2 KHz。在本节的其余部分将此设置称为窃听设备。播放声音的水平是用专业的分贝计测量的。

A. 环境条件的影响

(1)风扇/空调效果

首先探讨了靠近台灯的外部设备(例如风扇、空调)产生的空气的影响。此类设备可能会引起不必要的振动,从而影响恢复信号的质量。

实验设置:将电风扇从一米的距离对准台灯灯泡。通过光电传感器获得了两个光信号:1)电风扇关闭时的基线信号,2)电风扇打开时的附加信号。

结果:下图显示了从两个光信号计算的 SNR。可以看出,电风扇产生的空气会影响 120 Hz 以下的频谱。

结论:在 OAT 的第一步中,使用高通滤波器过滤了 120 Hz 以下的范围。因此,尽管电风扇对频谱有影响,但它对恢复的语音质量的影响可以忽略不计,因为大部分语音能量都存在于 100 Hz 以上。

(2)环境光的影响

接下来,探讨环境光对 SNR 的影响。

实验设置:通过放置在距离台灯灯泡 10 厘米的扬声器播放频率扫描。从五米的距离通过光电传感器获得了两个光信号:房间里的灯关闭(黑暗)和打开时。

结果:下图显示了从两个光信号计算的 SNR。可以看出,SNR 图的行为和质量几乎相同。

B. 灯和灯泡的影响

(1)灯效

在这里探讨了使用的灯类型对 SNR 的影响。

实验装置:通过位于 5 米外的望远镜将光电传感器对准台灯。将扬声器放置在距离灯 10 厘米的位置,并从扬声器播放频率扫描 (70 Hz-1000 Hz)。在频率扫描期间获得了光信号,将这个实验重复了四次,每次都使用不同类型的台灯(如下图所示)。每盏灯都使用相同的12W E27 灯泡。

结果:上图显示了从光信号计算的 SNR。从结果中可以看出,所检查的四个台灯的 SNR 图的行为是相似的-SNR 作为频率的函数而降低。但是,每个灯的 SNR 水平不同(可用于恢复声音的有效带宽也是如此)。例如,具有长摆臂的灯(灯 D)比具有短摆臂的灯(灯 B 和 C)产生更高的 SNR 值。此外,固定台灯(灯 A)产生的 SNR 值明显低于可调台灯。基于这个实验得出结论,所有的灯都可以用来恢复声音,但是所用灯的类型会影响恢复声音的质量。

(2)灯泡的效果

在这里探讨了使用的灯泡类型对 SNR 的影响。

实验设置:重复之前的实验,这次使用固定台灯,播放频率扫描并从四种不同类型的 E27 灯泡中获得光学测量值:白炽灯 40W(31 克)、Leelite 15W LED(67 克)、Leelite 19W LED(86 克)和 S-10A60 15W LED(39 克)。此外,还对四种不同类型的 E14 灯泡进行了光学测量:Eurolux 10W LED(36 克)、Nixon 9W LED(22 克)、Nixon 5W LED(36 克)和欧司朗 40W 白炽灯(16 克)。

结果:上图和下图给出了从八个光信号计算的 SNR。从结果可以看出,产生更高信噪比值的灯泡是更强大的灯泡(更高的瓦数),而 LED 灯泡比其他类型的灯泡产生更高的信噪比值。此外,较轻的 LED 灯泡比具有相同功率水平的较重的 LED 灯泡产生更高的 SNR 值。

C. 与相关工作进行比较

(1)与可视麦克风的比较

在这里将 Lampphone 的性能与可视麦克风的性能进行比较,提出可视麦克风的研究者通过扬声器播放句子并通过高频摄像机(2200 FPS)从两米的距离。通过分析 12W E14 台灯灯泡的振动来比较 Lamphone 在恢复相同句子时的性能。

实验装置:按照可视麦克风研究中使用的实验装置如下,将扬声器放置在专用支架上(因此它们的振动不会影响灯泡),与可视麦克风放置在相同的距离(5 厘米)。通过扬声器以与可视麦克风研究中使用的相同音量 (95 dB) 播放可视麦克风恢复的 TIMIT 存储库中相同的六个句子。将窃听设备放置在距离灯泡 2.5 米处,在一扇紧闭的门后面(与视频摄像机放置在可视麦克风研究中的距离相同)。

结果:使用 OAT 从光学测量中恢复语音。恢复的音频信号可在线获得,在那里可以听到它们。六个恢复句子的频谱图可以在上图中看到。评估了恢复信号的可懂度、LLR、WSS 和 NIST-SNR,并在下表中报告了结果。还下载了相同的六个音频信号,这些信号在展示可视麦克风的研究中恢复并发布,并评估了他们的表现根据相同的指标。下表中的结果揭示了四个有趣的见解:

1)Lamphone 恢复的语音可懂度范围为 0.67-0.72,被认为是良好/一般。由Lamphone 恢复的语音的平均清晰度比使用可视麦克风时恢复的语音的平均清晰度高0.1(更好)。此外,Lamphone 获得的清晰度标准差 (STD) 比可视麦克风获得的清晰度标准差 (STD) 低 0.04 (更好)。这表明Lamphone获得的结果质量更高,在清晰度方面更稳定。

2) 可视麦克风恢复的语音的平均 LLR 比使用 Lamphone 时获得的低 0.27 (更好)。此外,可视麦克风获得的LLR的STD比Lamphone获得的LLR的STD低0.01(更好)。这表明可视麦克风获得的结果在 LLR 方面质量更高,更稳定。

3) 使用Lamphone 恢复的语音的平均WSS 比可视麦克风恢复的语音低96.59(更好)。此外,Lamphone 获得的 WSS 的 STD 比可视麦克风获得的 WSS 的 STD 低 26.75(更好)。这表明,Lamphone 获得的结果在 WSS 方面质量更高,更稳定。

4) 可视麦克风恢复的语音的平均 NIST-SNR 比使用 Lamphone 恢复的语音的平均 NIST-SNR 高 17.1(更好)。但是,Lamphone 获得的 NIST-SNR 的 STD 比可视麦克风获得的 NIST-SNR 的 STD 低 7.3(更好)。这表明,Lamphone 获得的结果更稳定,但在 NIST-SNR 方面质量较低。

(2)与监听硬盘的比较

在这里,将Lamphone 的性能与监听硬盘驱动器(Hard Drive of Hearing)的性能进行比较。提出监听硬盘驱动器的研究者展示了从哈佛句子数据库中恢复的两个录音:一个女性样本(list 1)和一个男性样本(list 57)。特定的音频样本取自 Open Speech Repository。通过分析 12W E14 台灯灯泡的振动来比较 Lamphone 在恢复相同句子时的性能。

实验设置:遵循监听硬盘驱动器研究中使用的实验设置如下:将扬声器放置在专用支架上(因此它们的振动不会影响灯泡),距离与监听硬盘驱动器研究中的相同(25 厘米)。通过扬声器播放了来自监听硬盘驱动器恢复的开放语音存储库中的两个音频样本,音量与监听硬盘驱动器研究中使用的音量相同 (85 dB)。在实验中,窃听设备被放置在距离灯泡 2.5 米的地方,在一扇紧闭的门后面。

结果:使用 OAT 从光学测量中恢复语音。由于无法从硬盘监听研究中获得恢复的音频样本,将 Lamphone 的性能与他们论文中报告的结果进行了比较。 Hard Drive of Hearing 的研究者使用 NIST-SNR 评估了他们恢复的信号,因此比较了由 Lamphone 恢复的句子和基于 NIST-SNR 的 Hard Drive of Hearing 恢复的句子。比较结果如下图所示,Lamphone 恢复的语音的平均 NIST-SNR 比 Hard Drive of Hearing 论文中报告的恢复语音的平均 NIST-SNR 高 13.5(更好)。此外,Lamphone 获得的 NIST-SNR 的 STD 比可视麦克风获得的 NIST-SNR 的 STD 低 1.91(更好)。

(3)结论

分析本节进行的实验结果得出结论:(1)Lamphone 和可视麦克风恢复的语音质量处于同一水平。哪种方法更好的问题的答案取决于用于评估这些方法的指标。 (2)Lamphone恢复的信号质量优于Hard Drive恢复的信号质量。

D. 距离的影响

在这里评估了灯泡与以下距离的影响:(1)窃听设备(随着距离的增加,传感器捕获的光减少),以及(2)受害者(随着距离的增加, SNR 上的灯泡振动减少)。设置如下图所示。

首先,评估受害者和灯泡之间的距离对恢复信号频谱的影响。

实验装置:窃听设备位于距离灯泡 10 米处。将扬声器放置在距离灯泡两个距离(25 厘米和 50 厘米)的位置。通过扬声器以虚拟会议的音量(此类会议的平均音量为 75 dB)播放频率扫描,同时获得光学测量结果。

结论:下图显示了将扬声器放置在距离灯泡 25 厘米和 50 厘米处所获得的 SNR。根据结果得出结论,包含可用于恢复声音的强信号 (>15dB) 的有效带宽很窄:它在 340 Hz 左右结束,距离为 50 cm,在 400 Hz 左右结束,距离为25 厘米。

接下来尝试评估距离对 Lampphone 恢复的语音的影响。

实验设置:将窃听设备放置在距离灯泡三个距离(15、25、35 米)处,将扬声器放置在距离灯泡两个距离(25 厘米和 50 厘米)处,通过虚拟会议音量级别的扬声器播放语音:“We will make America great again!”,同时获得光学测量结果。

结果:使用 OAT 从光学测量中恢复语音,恢复的音频信号可在线获取。恢复语音的频谱图见下图。恢复信号的可懂度、LLR、WSS 和 NIST-SNR 在上表中报告。从结果可以看出,Lamphone 的质量为当它用于从以下距离恢复声音时被认为是公平的:1) 灯距受害者 25 厘米时可达 35 米,以及 2) 灯距受害者 50 厘米时可达 15 米。

0x07 Potential Improvements

在本节中建议窃听者可以在不更改目标位置设置的情况下优化恢复音频质量的方法。下面建议的潜在改进基于它们旨在优化的组件。

望远镜:安装在直径为 r 的望远镜上的光电传感器捕获的光量由望远镜透镜的面积 (πr^2 ) 决定。因此,两个望远镜的镜头直径为 x 和 y(其中 x = y + z)= (πx^2 ) – (πy^2 ) = 2πyz + πz^2的光量存在二次差。这在上图中得到了经验证明,该图显示了从三个具有不同透镜直径(7.5 厘米、10 厘米、20 厘米)的望远镜使用相同的实验装置获得的光学测量结果中提取的三个 SNR 图。从结果可以看出,随着镜头直径的增加,安装的光电传感器捕获的光量也增加了。结果,光信号产生更高的信噪比并具有更宽的有效光谱。

镜头:近摄镜头可用作光信号的光放大器,方法是增加灯的光线面积(从而增加望远镜捕获的光量)与望远镜捕获的总面积之比。这在上图中得到了经验证明,它显示了从望远镜在两种设置中获得的光学测量中提取的两个 SNR 图:(1)在望远镜和光电传感器之间放置一个近摄镜头,以及(2)没有近摄镜头。从结果可以看出,增加的灯面积比(这导致光比增加)与望远镜捕获的总面积之比会产生更高的信噪比和更宽的有效光谱。

光电传感器:通过使用改进的光电传感器来获得光学测量值,可以提高系统的灵敏度。上图对此进行了实证验证,该图显示了从两个不同的光学传感器(PDA100A2 和 APD410A)获得的光学测量中提取的两个 SNR 图。从结果可以看出,光电传感器的灵敏度影响信噪比水平。另一种选择是对来自多个光学传感器的信号进行采样。给定 N 个对信号进行采样的传感器,SNR 增加 √N。因此,窃听者可以通过将多个电光传感器指向灯泡来优化光信号的 SNR,以获得多个测量值并同时从多个通道对灯泡的振动进行采样。

ADC:如前文所述,输入电压范围为 [-5,5] 的 24 位 ADC 提供 0.6 uV 的灵敏度。只有预期会产生更大电压变化(即 > 0.6 uV)的灯泡振动才能被 Lampphone 恢复。一个 32 位 ADC 提供了 2.3 nV 的更高水平的灵敏度,并显着优化了系统的灵敏度。此外,在这项研究中对两种类型的 24 位 ADC(PXI-4498 和 NI-9234)进行了实验。具有较低自噪声电平的 ADC 提供了更高的 SNR,从而产生了更高质量的信号。

OAT:语音增强领域中的许多高级去噪方法可以作为 OAT 步骤的补充或替代方法使用。高级算法(例如神经网络)为过滤音频信号中的噪声提供了出色的结果,但通常需要大量数据来训练此类模型。恢复的语音信号的有效带宽可以通过使用语音的人工带宽扩展算法来扩展)。此类算法使用专用的语音模型,并根据低频中出现的信息人为地将信息添加到音频信号的高频中。通过这样做,带宽扩展算法扩展了人耳可以听到的有效带宽,从而提高了音频质量。

结论:本节中进行的实验表明,使用改进的设备会产生更高的 SNR。得出的结论是,Lamphone 恢复的声音质量与所用设备的质量成正比。改进的设备可用于延长灯与受害者以及灯与光电传感器之间的可能距离。

0x07 Countermeasures

在本节中分析了已知对策对声音恢复的有效性,并比较了它们对 Lamphone 和其他研究中提出的方法的有效性。对策按有效性进行分析:高(记为 ●)、中(记为 ◐)、低(记为○)。下图中给出了该比较的总结。

A. 预防

用于消除漏洞的对策。对策: (●) – 有效防止物体变成隔膜, (○) – 对方法无效。从办公室中移除潜在的隔膜 – 禁止任何在受到环境声波撞击时振动的轻质物体/设备(例如,一袋芯片、智能手机)( – 反对绝大多数方法,包括 Lamphone),但是激光麦克风可以从大多数环境中无法移除的窗玻璃的振动中恢复声音(○ – 针对激光麦克风)。

B. 缓解

用于防止利用漏洞的对策。对策: (●) – 防止窃听者利用漏洞(即恢复声音), (◐ ) – 降低利用漏洞的可能性(例如,降低恢复声音的质量或要求窃听者使用更昂贵的设备), (○) – 对方法无效。

限制间谍设备的销售– 将与间谍相关的设备(例如激光收发器)的可用性限制在特定实体(例如警察局)。这种方法可以防止窃听者获取获取可用于恢复声音的数据所需的设备(● – 针对激光麦克风)。然而,许多与间谍活动无关的传感器/设备也能有效获取可用于恢复声音的数据(○)。

防止泄漏– 将数据或物理副作用包含在房间内,并使用软件(例如,用于防止数据泄露的防火墙)或物理设备(例如,用于消除数据泄露的窗帘)防止信息从房间泄漏。到振动物体的视线),或通过改变目标房间的位置(例如,瞄准没有窗户的内部房间)。这种对策对于通过互联网和光学传感器获取数据来恢复声音的方法非常有效(●,包括 Lamphone)。然而,这种对策对于从射频信号中恢复声音的方法是无效的,因为很难防止射频信号的泄漏(○ )。

创建安全边界– 通过迫使窃听者从远处施加攻击(例如,通过在房屋周围安装栅栏或将放置台灯的表面移开)来限制/降低窃听者恢复声音的能力从窗户)。此类对策可能会限制窃听者获取恢复声音所需的射频和光学数据的能力。但是,窃听者可以使用改进的设备(例如天线、望远镜)来获取无线电信号并创建视线(◐,包括 Lamphone)。这种对策对通过 Internet 获取数据来恢复声音的方法无效(○)。

C. 检测

用于识别用于利用漏洞的方法的应用的对策: (●) – 可以检测到恢复声音的方法的应用, (○) – 对方法无效。

检测主动攻击– 部署用于检测网络入侵和数据泄露企图的软件(例如,通过使用 IDS)并部署用于检测激光收发器使用的设备(例如,通过使用光学传感器)。此类方法可有效检测损害设备的初步阶段,以便从目标设备(●)和使用激光麦克风(●)。但是,这种方法对被动外部方法无效(○,包括 Lamphone)。

D. 结论

通过分析上述对策方法的有效性得出结论,受害者不能依赖限制销售 Lamphone 攻击所需设备的规定来防止窃听器恢复声音,因为 Lamphone 依赖于光电二极管(与间谍无关的常用传感器),与依赖激光收发器的激光麦克风不同。此外,受害者无法安装专门的机制来检测 Lamphone 的使用,因为它的实施并没有提供任何关于其应用的指示,这与激光麦克风不同,可以使用专用的光学传感器来检测其使用情况。鉴于此,潜在的受害者应注意保护自己免受 Lamphone 攻击造成的威胁。例如,可以对家庭办公室进行简单但有效的调整,包括安装窗帘以消除视线或用其他照明解决方案替换台灯以消除漏洞。或者,可以使用没有窗户的内部房间进行敏感对话,或者房主可以安装围栏以增加他/她与潜在窃听者的距离并减轻攻击。

0x08 Limitations, Discussion, and Future Work

这项研究的目的是通过分析台灯灯泡的振动来提高人们对恢复声音的可行性的认识。虽然本研究是第一个在学术领域展示这种方法的,但不知道本文方法在军事和间谍领域是否已经为人所知。虽然只能假设这个问题的答案,但出于以下原因,相信本研究并不是第一个利用灯泡来恢复声音的:(1)台灯和台灯已经存在多年,以及(2 ) 声音恢复对世界各地的各种机构(NSA、FBI 等)都很感兴趣。

Lamphone 的主要缺点是恢复的声音质量与窃听者使用的设备的质量成正比。因此,需要更好的设备(例如,具有较低自身噪声水平的 ADC、更灵敏的光电传感器、具有更宽镜头的望远镜和专用光学镜头)来恢复窃听者之间较长距离的声音和灯泡,受害者和灯泡。

对于未来的工作,建议研究如何通过集成语音处理和去噪(例如,使用自动编码器)的高级算法来改进 OAT,以及如何应用通过使用更紧凑的设备进行攻击。还建议通过训练接收光信号并输出转录/文本的神经网络来研究光到文本模型的准确性。

参考资料Passive Sound Recovery from a Desk Lamp’s Light Bulb Vibrations

正文完