摘 要:混响时间是房间的基本声学参数,但基于房间冲激响应的施罗德混响时间估计依赖于声源及接收器的位置,该文提出修正的施罗德混响时间估计算法:混响时间重新定义为接收器信号平均功率衰减到声源信号平均功率的-60dB所对应的时间。仿真实验表明,修正的混响时间估计结果不依赖于声源(接收器)位置。
关键词:混响时间估计;修正施罗德方法;仿真研究;声源(接收器)位置关系
0 引 言
混响效应是由声音在封闭空间中经内部各个反射面多次连续反射而产生的。描述混响效应强弱的一个重要参数是混响时间(reverberation time,RT)。根据国际标准 ISO 3382-1:2009(E)(acoustics-measure ment of room parameters,part 1:performance spaces)§3.5,在一个封闭空间中,声源停止发声后,声能密度的空间均值衰减60dB所需时间定义为混响时间[1]。
混响时间做为描述封闭空间内声音衰减快慢程度的物理量,是建筑物音响效果设计中的一个重要的客观评价参数。在现代语音信号处理中,混响时间还是语音场景分析、录音环境识别、去混响等研究中的重要参数[2-3]。根据混响时间对未知录音环境进行辨识技术将在刑侦、反恐、版权保护等领域有着重要应用。
赛宾(Sabine)经过大量实验,第一个给出了混响时间计算公式[4-5],指出了混响时间与房间的体积、内部反射面的面积及反射面吸声系数之间的关系。当声反射较弱时,赛宾公式误差较大,因此Eyring提出一个修正公式[6-7]。为了更准确描述混响问题,还有很多研究者提出进一步的修正,如文献[8-9]所给出的算法。
由赛宾等人的公式可见,混响时间是一个与声源及声接收器位置无关的量,它仅依赖于房间的几何尺寸(容积及内表面积)及声学属性(吸声系数),因此混响时间又是一个表征封闭空间几何结构与声学属性的重要参数。
近年来,盲混响时间估计问题已经引起人们越来越多的重视[2,10]:在声源信号未知的情况下,只根据一段录音信号来估计录音房间的混响时间。
混响时间估计的一个重要方法为施罗德法[11]。基于房间冲激响应的施罗德法估计的混响时间依赖于声源及接收器在房间中的相对位置,因此在国际标准ISO 3382-1&2:2009(E)中规定进行多点测量并取均值。这种方法并不能完全消除测量结果对声源(接收器)位置的依赖关系。如何消除这种依赖关系将是本文研究的重点。
1 施罗德方法及其局限性
当对一个给定房间进行混响时间测量时,通常并不是从赛宾等人的公式出发,即通过测量房间的体积及总吸声量来间接地计算混响时间,而是通过用声源激励房间,并根据接收到的声音信号来估计混响时间。这是一种直接测量方法,比赛宾等人的计算公式更准确。在国际标准ISO 3382-1&2:2009(E)中详细地介绍了声源激励下房间混响时间的测量方法:噪声信号突然中断法和冲激响应积分法(即施罗德方法)[1,10]。
设给定声源及麦克风(接收器)位置情况下,房间冲激响应为r(t),声源信号为零均值、σN2方差的平稳白噪声n(t)。当声源n(t)在t=0时刻突然停止播放,则麦克风接收到的信号为由于房间的混响效应,s(t)不会突然消失,它将持续一段时间并近似指数地衰减下去。麦克风接收到的信号的平均功率为根据混响时间RT的定义[1]:在一个封闭空间中,声源停止发声后,声能密度的空间均值衰减60dB所需时间,即下面定义的能量衰减曲线衰减到-60 dB所需的时间T60:
由此得到T60所满足的方程为
这就是混响时间的施罗德反向积分算法。
在实践中,采用施罗德方法,通常选取能量衰减曲线的近似线性衰减部分,用最小二乘法进行直线拟合,延长拟合直线至与-60dB水平线相交,交点所对应的时间即为估计的混响时间RT。
在仿真实验中,选取3个不同尺寸的矩形房间(长×宽×高):房间A为15 m×7 m×3 m;房间B为11 m×7 m×3m;房间 C 为 9m×7m×3m。标准坐标系下,声源位于 S(3m,2m,1.2m);20 个接收器位置如下(单位:m):房间冲激响应由声学镜像法仿真而得[12]。
理论上,声源与接收器位置互换,冲激响应是不变的,故在本实验中,声源位置固定而改变接收器的位置。在仿真中,由于能量衰减曲线线性部分的分贝值变化较大(这可能与房间冲激响应声学镜像模型有关),所以直接取其线性部分进行最小二乘直线拟合并延长该直线至-60dB而得到不同房间的RT值及其标准差,见表1。从表1可见,3个房间RT的标准差比较大,这反映了接收器(声源)位置对RT的影响。图1为房间A的20条能量衰减曲线及相应的拟合直线,直观地反映了施罗德方法估计的RT值对接收器(声源)位置的依赖关系。房间B、C给出类似结果。
表1 3个不同大小房间混响时间的施罗德方法结果
注:1)由于不同能量衰减曲线上下移动很大,这里的拟合区间不是真正的拟合区间,仅指这里的拟合区间与表2及图2中的拟合区间相同。
图1 房间A的能量衰减曲线及其线性部分拟合直线
显然,本仿真结果与混响时间不依赖于声源及接收器位置的理论相矛盾。为解决这一问题,将对施罗德方法进行修正。
2 修正的施罗德方法
通过仿真研究发现,施罗德方法中不同接收器(声源)位置所对应的能量衰减曲线的拟合直线几乎平行,但却很分散,如图1所示,从而影响到混响时间的估计。能量衰减曲线的分散性是由零时刻接收器接收信号的平均功率上下波动所引起的。接收器零时刻的接收信号是声源直达信号与零时刻之前的所有反射波的叠加,其平均功率可能大于声源功率,也可能小于声源功率,这完全取决于接收器(声源)所在位置。但是在声源停止发射后的短暂时间内,声波经过若干次反射后,整个空间中声波将趋于均匀分布,与声源及接收器所在位置无关,任意点的接收信号的统计平均功率都相同,并且只依赖于声源信号的强弱。正因为接收器零时刻的接收信号平均功率随接收器(声源)位置的这种波动,导致施罗德方法给出的能量衰减曲线将随接收器(声源)位置变化而上下偏移,从而导致所估计的混响时间也随接收器(声源)位置而上下波动。
对于一个平稳的声源信号,其平均功率与接收器(声源)位置无关,因此在修正的施罗德方法中,定义能量衰减曲线为麦克风接收信号的平均功率与声源信号的平均功率之比的对数,即:
当p′(t)衰减到-60dB时,即麦克风接收到的信号的平均功率相对于声源信号的平均功率衰减60 dB时所对应的时间定义为混响时间RT′,即-60dB。因此有
比较式(2)和式(4)可见,如果房间冲激响应满足归一化条件,即接收器信号零时刻的平均功率等于源信号的平均功率时,两种方式定义的混响时间一致,即:。但是通常情况下这一条件并不能满足,它取决于声源及接收器所在位置。
采用同样一组数据,修正的施罗德方法的仿真结果列于表2中。由表2可见,对同一个房间不同声源(接收器)位置的混响时间估计值的标准差很小,说明混响时间几乎不依赖于声源(接收器)位置。在图2中给出了房间A修正的施罗德方法的能量衰减曲线p′(t)。由图2可见,修正的能量衰减曲线的线性部分几乎重合,说明声源(接收器)位置对混响时间估计没有影响。此外,由图2也看到,在t=0时刻,p′(0)的值有正有负,说明由于房间内各种反射面反射信号的存在,接收点信号可能得到加强或消弱,但这只是一个短暂的过程。当经过若干次反射之后,整个房间中声波趋于均匀分布,因而声源(接收器)位置对它的影响很快消失,从而所有p′(t)趋于一致。为比较起见,在图2中给出了图1中所有拟合直线的平均位置(图中虚线),此图说明施罗德方法中的空间平均只能部分地消除声源(接收器)位置影响。
表2 3个不同大小房间混响时间的修正施罗德方法结果
图2 房间A的修正施罗德方法的能量衰减曲线及其线性部分的拟合直线
3 讨 论
对比表1和表2,A、B、C 3个房间的施罗德算法RT相对于修正施罗德算法RT′的偏差分别为58.3ms、-6.2ms和-33.2ms。对于这一偏差,解释如下:
首先,比较式(1)和式(3),得到
在能量衰减曲线的线性部分,两者的拟合直线的斜率相等(差别非常小,见图1)且均为k,纵轴截距之差为
所以由两者得到的混响时间之差为
对于给定房间,斜率k值恒定,因此平均混响时间偏差等于
计算结果列于表3,与直接由表1和2计算的偏差值一致。
表3 修正前后两种方法估计RT的偏差计算
4 结束语
在施罗德方法中,接收器信号平均功率衰减60 dB是相对于其零时刻的平均功率,而这一平均功率依赖于接收器(声源)位置,因而提出接收器信号平均功率相对于源信号的平均功率衰减60dB作为混响时间的定义。仿真实验表明,本文提出的修正的施罗德方法可以有效地消除接收器(声源)位置对房间混响时间估计的影响。